Menü

Gütekriterien: Qualität von Fragebogen – Beispiele und Tipps zur Praxis

Anforderungen an die Qualität von Fragebögen in der Praxis

Gütekriterien: Qualität von Fragebögen

Gütekriterien messen die Datenqualität (zum Beispiel nach DIN 33430). Sie sind besonders wichtig für die Beurteilung und Auswahl von Fach- und Führungskräften und gehören zu Best Practice der Personalentwicklung.

Für die meisten Datenerhebungen wie zum Beispiel Tests, Befragungen, Interviews oder Assessment Center ist ein Fragebogen notwendig. Seine Qualität entscheidet über die Qualität der Ergebnisse und somit den praktischen Nutzen. 

Das gilt für eine medizinische Forschung (z. B. Wirksamkeit eines Medikaments) genauso wie für eine Marktforschung (z. B. Attraktivität einer Marke). Die Maßstäbe zur Beurteilung der Qualität der Ergebnisse der Datenerhebung nennt man Gütekriterien (Objektivität, Reliabilität und Validität). 

Diese Gütekriterien werden am Ende dieser Seite anhand eines Praxisbeispiels systematisch und nachvollziehbar erklärt. 

Wir beginnen aber mit einem Beispiel aus der Management-Praxis, nämlich der Beurteilung von Stärken und Schwächen von Fach- und Führungskräften. Die Methode der Datenerhebung heißt 360-Grad-Feeback.

Es gehört zu den effektivsten Instrumenten in der Personal- und Führungskräfteentwicklung. Dabei geht es um die Karriere und die berufliche Zukunft sowohl erfahrener Führungskräfte als auch der Potenzialträger (Nachwuchskräfte). Aus diesem Grund sollte diese Diagnostik besonders hohe Qualitätsstandards erfüllen, wie sie zum Beispiel in der DIN-Norm 33430 festgelegt wurden. 

Beispiel Management (Personal- und Führungskräfteentwicklung)

Warum Gütekriterien so wichtig sind 

Die Ergebnisse einer Befragung können in der Praxis nur so nützlich sein wie die Qualität (Objektivität, Validität und Reliabilität = Gütekriterien) des verwendeten Fragebogens. Das gilt für die meisten Beurteilungsmethoden: vom 360-Grad-Feedback über die Mitarbeiter- und Kundenbefragung, das Mitarbeitergespräch bis hin zum Einstellungs-Interview, einem Assessment Center oder einem Management-Audit.

Der Grundsatz lautet: Es ist praktisch nicht möglich, aus Fragebögen mit mangelhaften Gütekriterien praxisrelevante Empfehlungen abzuleiten. In einem Forschungsprojekt an unserem Institut haben wir rund 300 Fragebögen kritisch analysiert und die häufigsten Gründe dafür gefunden, warum Befragungen scheitern oder sogar Schaden anrichten. Dazu einige Beispiele und Tipps:

Folgen von Befragungen mit untauglichen Fragebögen

Ein häufiges Problem sind mehrdeutige, widersprüchliche, abstrakte oder nicht relevante Fragen (Items). Das führt oft zu Konflikten, Irritationen und Akzeptanzproblemen. Manche Führungskräfte können sehr „sensibel" reagieren, wenn das Fremdbild (zum Beispiel aus einem 360-Grad-Feedback) ihren Vorstellungen nicht entspricht, und sie möglicherweise ihre Karriere gefährdet sehen oder finanzielle Nachteile befürchten. 

Das gleiche gilt für Potentialträger, die sich durch das Assessment Center unfair beurteilt fühlen. Oft werden geeignete Bewerber abgelehnt und ungeeignete Kandidaten eingestellt. Nahezu peinlich waren gescheiterte Mitarbeiterbefragungen bei einigen DAX-Unternehmen, die in den sozialen Medien ausführlich diskutiert wurden. 

Erfahrungen mit ungeeigneten Fragebögen

Ein Beispiel für Mehrdeutigkeit: Zu der Aussage "nimmt faire und sachliche Kritik an" gibt es mindestens zehn verschiedene Interpretationsmöglichkeiten. Im Fragebogen eines anderen DAX-Unternehmens soll das Item "arbeitet kooperativ mit Anderen zusammen" ein Merkmal der Kompetenz "Partnerschaft leben" darstellen; als Antwortmöglichkeiten sind angegeben "Entwicklungsbedarf" bis "persönliche Stärke".

In vielen Fragebögen findet man Items, die nicht beobachtbar sind und sehr viel Spekulation oder sogar Hellseherei erfordern. So heißt es zum Beispiel "berücksichtigt Ängste und Vorbehalte Anderer", "betreibt Selbstreflektion", „lebt die Unternehmensvision“ oder "fühlt sich persönlich für den Kunden verantwortlich". Wie können Feedback-Geber „wissen“, was andere Menschen „denken“ oder „fühlen“? Wie ist so etwas möglich? Eine Antwort liefert Viktor Lau, der den Begriff „Management-Esoterik“ geprägt hat. Siehe dazu die Grafik: Probleme der Personalarbeit in der Praxis

Das Kernproblem von Fragebögen

Das Kernproblem: Vielen Entwicklern von Fragebögen ist – trotz guter Absichten – nicht bewusst, dass man Mehrdeutigkeiten, Widersprüche und mangelnde Praxis-Relevanz im Wesentlichen nur am Antwortverhalten der Befragten erkennen kann. Und dazu ist eine Überprüfung anhand einer Stichprobe notwendig. Der Grund: Bei jedem Menschen können die gleichen Begriffe oder Formulierungen völlig unterschiedliche Assoziationen auslösen.

Deswegen ist eine Mindestanzahl von Teilnehmern notwendig (Stichprobenumfang). Nur so ist es möglich, statistische Testverfahren anzuwenden, mit denen man derartige „Fehler“ entdecken kann. Die Gütekriterien geben Auskunft über diese „Fehlerfreiheit“. Leider existieren keine Patenzrezepte für die Formulierung von Items - aber einige Tipps und Empfehlungen:

Praxis-Tipps zum Umgang mit Fragebögen

Achten Sie auf Trennschärfe und die Anzahl von Items!

Viele Aussagen (Items) zur Beschreibung (Operationalisierung) einer Fähigkeit haben eine zu geringe Trennschärfe und passen nicht zu der Kompetenz: sie 'messen' etwas völlig anderes, die antwortende Person hat die Frage anders verstanden als beabsichtigt, oder die Items sind bei gleichem Inhalt nur unterschiedlich formuliert.

Auch die Anzahl der Items (Verhaltensbeschreibungen), die eine Kompetenz repräsentieren, ist oft zu gering um praxisrelevante Ergebnisse zu liefern. So ist es ist praktisch unmöglich, zum Beispiel 'Konfliktfähigkeit' mithilfe von drei bis vier Items einzuschätzen (weil es mehr als vier verschiedene Konfliktarten und dazu passende Lösungsmöglichkeiten gibt).

Verhindern Sie Esoterik und Trivialität!

Viele Items klingen plausibel, sind aber zu abstrakt und 'messen' triviale Selbstverständlichkeiten wie es bei der Sterndeutung und Wahrsagerei der Fall ist. Dazu gehören Aussagen wie zum Beispiel 'mein Vorgesetzter lobt mich oft', 'mein Vorgesetzter kann gut zuhören, …zeigt Verständnis, …setzt sich für Kunden ein', 'sieht Chancen, wo Andere nur Probleme sehen', 'identifiziert sich mit dem Unternehmen', 'unterstützt unkonventionelle Ideen', 'lebt die Unternehmensvision', 'ermächtigt seine Mitarbeiter' etc. Hier haben wir es eher mit Esoterik als mit Kompetenzdiagnostik zu tun (siehe dazu den Barnum-Effekt). 

In vielen Fragebögen wird 'Teamfähigkeit' erhoben. Damit kann gemeint sein, dass jemand im Team 'konstruktiv mitarbeitet', 'mit Anderen gut auskommt', 'sich in eine Gruppe gut einfügen kann', 'für gute Laune sorgt', 'kollegial', 'konstruktiv', 'sensibel', 'umsichtig', 'freundlich', 'kompromiss- und kritikfähig' ist. Derartige Gemeinplätze haben, abgesehen davon, dass es reine Worthülsen sind, nicht viel mit dem Erfolg eines Teams zu tun. Damit ein Team erfolgreich arbeitet, muss jedes Teammitglied seine spezifische Aufgabe (Team-Rolle) erfüllen. Die oben genannten Items sind für den Teamerfolg völlig irrelevant und – bestenfalls – Folge von Teamfähigkeit

Was Sie bei vorhandener Validität sonst noch beachten sollten!

Auch bei validierten Skalen ist Vorsicht geboten. Beispielsweise misst das 'Bochumer Inventar zur Berufsbezogenen Persönlichkeitsbeschreibung' die Teamorientierung und meint damit, wie stark jemand Teamarbeit bevorzugt (operationalisiert mit 13 Items). Tatsächlich kommt es auf die 'Bevorzugung von Teamarbeit' gar nicht an. Vielmehr ist es wichtig, wie gut jemand im Team seine individuelle, für den Teamerfolg wichtige Rolle wahrnimmt. Einen Torwart misst man nicht daran, wie viele Tore er schießt. 

Zur Einschätzung der 'optimalen' Teamarbeit gibt es verschiedene (validierte) Konzepte. Ein Beispiel ist das von Meredith Belbin. Eine wichtige Teamrolle dabei ist die des Bewerters (Kritikers). Diese Personen machen sich im Team häufig sehr unbeliebt, sind aber für den Teamerfolg unerlässlich. In vielen Assessment-Centern wird diesen Personen dennoch mangelnde Teamfähigkeit bescheinigt. Siehe hierzu den Beitrag zur Teamfähigkeit.

Orientieren Sie sich am aktuellen Stand des Wissens!

In vielen Fällen stammen die Items aus Modellen und Theorien, die zwar weit verbreitet und beliebt sind, aber keinen Praxisbezug haben. Beispiele sind die 'Theorie des Situativen Führens', das 'DISG-Modell', das 'Reiss-Profil' oder das 'Systemische Coaching'. Diese oft plausibel klingenden Aussagen haben tatsächlich die Qualität von Horoskopen oder Binsenweisheiten. Siehe dazu als Beispiel das Diskussionspapier 'Kritik des Reiss-Profils' und den Beitrag von Thompson und Vecchio: Situational leadership theory: A test of three versions, in: The Leadership Quarterly 20/2009). 

Unterscheiden Sie zwischen Persönlichkeit und Kompetenzen!

Zu Persönlichkeitsmerkmalen gibt es zahlreiche validierte Konzepte wie zum Beispiel das 'Big-Five-Modell' (Fünf-Faktoren-Modell) mit den Dimensionen Gewissenhaftigkeit, Offenheit, Verträglichkeit, Neurotizismus und Extraversion. Die Verwendung derartiger Merkmale führt zu anderen Problemen: Zum einen sind Persönlichkeitsmerkmale äußerst stabil und mit 'vernünftigem' Aufwand praktisch nicht veränderbar oder erlernbar (bzw. 'verlernbar').

Zum anderen ist es ethisch problematisch, die Persönlichkeit eines Menschen verändern (manipulieren) zu wollen. Schließlich besteht kaum ein Zusammenhang zwischen Persönlichkeitsmerkmalen und aufgabenspezifischen Fähigkeiten, die notwendig sind, bestimmte Ergebnisse (Resultate) zu erzielen. Diese aufgabenbezogenen Fähigkeiten und Erfahrungen nennt man Kompetenzen. 

Zur Unterscheidung zwischen Charaktereigenschaften, Wertvorstellungen und Kompetenzen empfehlen wir die Seite 360-Grad-Beurteilung von Führungskräften.  

Motive und Führungsstile im Fragebogen

Die gleiche Problematik wie im Falle der Persönlichkeitsmerkmale gilt auch für Motive und Führungsstile. Beispielsweise hat eine Studie von Albert Bandura von der Stanford University gezeigt, dass praktisch kein Zusammenhang zwischen der (im Test gemessenen) Leistungsmotivation und der tatsächlichen Leistung besteht. Bislang ist es auch nicht gelungen, einen Erfolg versprechenden Führungsstil zu finden.

Abgesehen davon, ist es kaum möglich, den 'Stil' eines anderen Menschen nachzuahmen. Im Gegenteil: Individualität und Authentizität haben sich in unserer Studie über die Erfolgsfaktoren mittelständischer Weltmarktführer (Hidden Champions) als wesentlich wichtiger erwiesen als irgendwelche (theoretischen) Stile. 

Legen Sie zuerst die Ziele der Befragung oder Beurteilung fest!

Die wichtigste Aufgabe ist es, eine Schnittmenge zwischen dem Persönlichkeits- und Kompetenzprofil des Kandidaten und der Unternehmenskultur herzustellen. Beides muss zueinander passen und auf die Zukunft ausgerichtet sein. Ferner sollte man klären, ob eine bestimmte Fähigkeit oder Charaktereigenschaft eine Stärke oder Schwäche darstellt. 

Dies ist in erster Linie von den Zielen abhängig. Erfolge und überzeugende Ergebnisse wird man in der Regel nur mit Stärken erreichen. In Standardwerken findet man bis zu 80 Management- und Führungskompetenzen. An allen Kompetenzen zu arbeiten ist weder möglich noch sinnvoll. Aus der Perspektive des Kandidaten und des Unternehmens ist somit die Setzung von 'richtigen' Prioritäten notwendig. Nur so findet man beiderseitige Vorteile, die langfristig tragfähig sind. 

Beispiele für validierte Fragebögen (mit Angabe der Gütekriterien) auf der Seite 'Valide Diagnostik von Management- und Führungskompetenzen'

Gütekriterien (Qualitätsanforderungen an Fragebögen)

Objektivität

Einem Test (z. B. Intelligenztest), einer Befragung (z. B. Einstellungsinterview) oder einem Assessment Center liegt immer ein Fragebogen zugrunde. Statt Fragebogen wird auch der Begriff „Inventar“ verwendet. Das ist üblich, wenn es sich bei den „Fragen“ um Aussagen handelt, denen man auf einer Skala mehr oder weniger zustimmen soll. 

Ein Beispiel aus einem Test der Emotionalen Intelligenz: „Es fällt mit schwer, meine Gefühle in Worten auszudrücken“. Die Antwortmöglichkeiten reichen von 1 = „trifft gar nicht zu“ bis 5 = „trifft voll zu“. Natürlich könnte man diese Aussage auch als Frage formulieren. Diese Aussagen oder Fragen nennt man Items. 

Mehrere solcher Fragen (Items) werden zu einer Dimension zusammengefasst. Bei dieser Dimension kann es sich um eine Kompetenz oder um ein Persönlichkeitsmerkmal handeln. Ein Beispiel für eine Kompetenz wäre die Fähigkeit, eigene Emotionen zutreffend zu erkennen. Eine andere Kompetenz wäre die Fähigkeit, Emotionen bei anderen Menschen zutreffend zu erkennen. 

Eine Dimension kann auch ein Persönlichkeitsmerkmal sein. Das ist dann der Fall, wenn man davon ausgehen kann, dass das Verhalten gar nicht oder nur schwer veränderbar ist (weil es „angeboren“ ist oder seit der frühen Jugend tief verwurzelt ist). Dem Fragebogen muss also eine valide erklärende Theorie der Persönlichkeit (und keine Typologie) zugrunde liegen. Wenn Sie dieses Thema vertiefen wollen, folgen Sie dem Link zum Persönlichkeitstest). 

Empfehlung: Absolvieren Sie den Test der Emotionalen Intelligenz auf der folgenden Seite, damit Sie das Gesagte besser nachvollziehen können. 

Was heißt Objektivität?

Die formale Definition lautet: Ein Testergebnis ist objektiv, wenn es unabhängig von der durchführenden Person und der Situation ist. Was bedeutet das? Beispiel: In einem Assessment Center sollen die Gutachter (Berater) eine Einschätzung der Emotionalen Intelligenz eines Bewerbers für eine Führungsposition vornehmen. Kommen die Gutachter zu unterschiedlichen Einschätzungen, dann ist das Testergebnis nicht objektiv. 

Die Objektivität verbessert sich auf keinen Fall, wenn zwei oder drei Gutachter (Beobachter) einen Durchschnitt aus ihren Bewertungen ermitteln (was aber leider gängige Praxis ist). 

Ein Zeichen mangelhafter Objektivität ist auch dann gegeben, wenn der gleiche Fragebogen (oder Test) in verschiedenen Unternehmen bei der gleichen Zielgruppe unterschiedliche Ergebnisse zeigt. 

Ein objektiver Test muss auch das Problem der Vergleichswerte (Normierung) lösen. Beispiel: Die Emotionale Intelligenz wird bei einem Kandidaten für die Aufgabe als Vertriebsleiter mit 3,4 auf einer Skala von 1 bis 5 ermittelt. Ist das viel oder wenig?

Wenn bei einem 360-Grad-Feedback die Führungskompetenz des Management-Teams mit 3,7 (auf einer Skala von 1 bis 5) beurteilt wird, kann das sehr gut sein, wenn die Wettbewerber mit 2,3 abschneiden. Dagegen besteht erheblicher Handlungsbedarf, wenn die Führungsmannschaft wichtiger Konkurrenten mit 4,6 bewertet wird. 

Zur Lösung derartiger Probleme sind Vergleichswerte für verschiedene Zielgruppen notwendig; und dazu braucht man Normierungsstichproben.  

Reliabilität

Reliabilität ist definiert als Verlässlichkeit einer „Messung“ mit einem Fragebogen (z. B. Messung der Emotionalen Intelligenz). Das klassische Beispiel ist eine Waage, die bei jeder Messung ein anderes Gewicht zeigt oder ein Maßband aus Gummi. In der Praxis spricht man davon, dass ein solcher Test die Ergebnisse bringt, die der Auftraggeber haben möchte. Die Messung kann also eine Alibifunktion haben. 

Dazu soll Churchill gesagt haben:

„Ich glaube nur der Statistik, die ich selbst gefälscht habe“


Beispiel: Ein Fragebogen soll die „Empathie“ einer Person messen. Das ist die Fähigkeit, sich treffend in die Gedanken- und Gefühlswelt anderer Menschen hineinzuversetzen (siehe dazu den Empathie-Test). 

Angenommen, dieser Test besteht aus 30 Items (Fragen oder Aussagen), dann stellt sich die Frage, ob alle Items zueinander passen, also alle die Kompetenz „Empathie“ messen. Die statistische Kennzahl dazu heißt Cronbachs Alpha und misst die „interne Konsistenz“ einer Dimension. Das ist die durchschnittliche Korrelation aller Items. Eine Faustregel besagt, dass sie für gute bis sehr gute Items mindestens bei α = 0,7 liegen sollte. Siehe dazu den Empathie-Test. 

Trennschärfe

Nahe verwandt mit Cronbachs Alpha ist die Trennschärfe. Sie zeigt an, ob alle Items zu einer Dimension gehören, also das gleiche Konstrukt messen. Ein Beispiel für eine solche Dimension ist Kompetenz „Vorbild sein“. Sie wurde mit folgenden Items operationalisiert (Zielgruppe Führungskräfte): 

  1. “Die Führungskraft meint was sie sagt”   
  2. “Steht für klare Wertvorstellungen” 
  3. “Verfügt über profunde Fachkenntnisse”
  4. “Setzt klare Ziele und Erwartungen”   
  5. “Verhält sich in einer Weise, die Respekt verdient”

Eine Stichprobe mit rund 14.000 Befragten ergab, dass zwischen diesen Items eine durchschnittliche Trennschärfe (Korrelation) von 0,63 besteht. Ein Item passt allerdings nicht ganz zu dieser Dimension („Vorbild sein“). Wenn man es herausnimmt, verbessert sich die durchschnittliche Trennschärfe auf 0,86. Welches Item würden Sie entfernen oder ersetzen? (Siehe dazu die Abbildung 'Vorbild im Alltag'). 

Validität

Es gibt verschiedene Arten der Validität. Für die angewandte empirische Forschung sind die Konstruktvalidität, die Kriteriumsvalidität und die prognostische Validität am wichtigsten. Dabei sind einige Lehrbuchdefinitionen leider irreführend. Zum Beispiel wird gesagt, Validität sei der Grad der Genauigkeit; damit sei gemeint, ob dasjenige Merkmal gemessen wird, das gemessen werden solle. Andere sprechen von Gültigkeit einer Messung usw. 

Konstruktvalidität

Beginnen wir mit einem Beispiel für Konstruktvalidität. Ein Test soll das Konstrukt „Introversion“ messen. Damit sind Eigenschaften wie Reserviertheit, Misstrauen, Kontaktarmut oder Verschlossenheit gemeint. Ein anderer Test soll dagegen das Konstrukt „Extraversion“ messen. Das sind besonders offene, kontaktfreudige und gesprächige Menschen gemeint. 

Angenommen, eine Personengruppe, zum Beispiel Verkäufer, erzielt bei einem Test besonders hohe Werte beim Merkmal Extraversion. Lässt man die gleichen Personen einen Test machen, der Introversion misst, dann müssen die Werte besonders niedrig sein, weil sich beide Merkmale gegenseitig ausschließen. Zeigen beide Tests die gleichen Ergebnisse, dann sind die Items, mit denen die Merkmale operationalisiert wurden, nicht korrekt sein. Ihnen fehlt es an Konstruktvalidität. 

Kriteriumsvalidität

Besonders wichtig für die Praxis ist die Kriteriumsvalidität. Sie beantwortet die Frage, ob ein Zusammenhang zwischen dem Testergebnis und einem Kriterium besteht. Beispiele für solche Fragen:

  • Besteht ein Zusammenhang zwischen Leistungsmotivation, die mit einem Motivationstest gemessen wird und der tatsächlichen Leistung eines Mitarbeiters (Kriterium)?
  • Sind extravertierte Kundenberater auch erfolgreicher (Kriterium könnte der Umsatz sein)?
  • Leiden unzufriedene Mitarbeiter häufiger an depressiven Störungen?
  • Haben Führungskräfte, die Vorbildfunktion erfüllen, eine größere Mitarbeiterzufriedenheit in ihrem Team?
  • Haben empathische Führungskräfte einen Einfluss auf die Motivation von Mitarbeitern?
  • Sind resiliente Pflegekräfte oder Lehrer weniger anfällig für Depressionen? 

Prognostische Validität

Wenn man die Fragen umformuliert, kommt man einer noch wichtigeren Art der Kriteriumsvalidität, der prognostischen Validität (Vorhersagevalidität). Beispiele: 

  • Wenn wir in der Forschung besonders gewissenhafte Mitarbeiter einstellen, werden sich dann die Forschungsergebnisse verbessern (Kriterium könnten Patentanmeldungen sein)?
  • Wenn wir extravertierte Verkäufer einstellen, wird dann die Kundenzufriedenheit zunehmen? 
  • Wenn wir Führungskräfte mit großer emotionaler Intelligenz engagieren, wird dann die Mitarbeiterzufriedenheit steigen?
  • Werden Kundenberater mit besonders großer Empathie in unseren asiatischen Niederlassungen besonders erfolgreich sein?
  • Kann man mit einem Resilienztraining die Stressbelastung von Projektleitern reduzieren?
  • Wird ein Trainer mit einer ausgeprägten sozialen Empathie den Teamgeist der Mannschaft stärken (Beispiel Jupp Heynckes)? 

Korrelation und Kausalität

Wenn eine Korrelation, also ein statistischer Zusammenhang besteht, kann man jedoch nicht auf eine Kausalität (Zusammenhang zwischen Ursache und Wirkung) schließen. Man muss die Kausalität mit besonderen Methoden nachweisen. Ein Beispiel aus der medizinischen Forschung: Besteht ein kausaler Zusammenhang zwischen einem Impfstoff und Immunität gegenüber einem bestimmen Virus - oder wie wirksam ist die Impfung?.

Stellen Sie diese und ähnliche kritische Fragen in Ihrem alltäglichen Umfeld. Zum Beispiel: Besteht ein statistischer oder ein kausaler Zusammenhang zwischen CO2-Emission und Klima? Dazu muss man allerdings in die wissenschaftlichen Original-Forschungsberichte schauen. 

Die jüngste Vergangenheit hat gezeigt, dass die Aussage von Churchill heute aktueller ist denn je: „Glaube keiner Statistik, die du nicht selbst gefälscht hast“. 

Die Methoden zum Nachweis einer Kausalität zeigt die nachfolgende Grafik:

Prognistische Validität: Nachweis der Kausalität

Abbildung: Kriteriumsvalidität und Nachweis der Kausalität für prognostische Validität
Anmerkung: "Doppelblind" heißt, dass weder die Probanden noch die Versuchsleiter wissen, 
wer das Placebo (Kontrollgruppe) und wer den Wirkstoff (Interventionsgruppe) bekommt

Waldemar Pelz, Bad Soden am Taunus und Gießen, Oktober 2021