Reliabilität als Gütekriterium

Was ist eine Messung wert, die nicht genau misst? Nichts. Nur – wann sind Studien, Ergebnisse, Messungen und Tests reliabel?
Dieses Kapitel behandelt Reliabilität (dt. Zuverlässigkeit) als Gütekriterium. Es zeigt die Definition und stellt verschiedene Arten der Reliabilitätsanalyse, also der Berechnung, vor. Dazu gehört die Test-Retest-Methode, die Split-Half-Methode, die Konsistenzanalyse – etwa mit Cronbachs Alpha – und Paralleltests. Zudem kommen zahlreiche Tipps zur Erhöhung von Reliabilität. …

Reliabilität bezeichnet die Genauigkeit von Messungen, Messinstrumenten und Ergebnissen
Reliabilität bezeichnet die Genauigkeit von Messungen, Messinstrumenten und Ergebnissen

Reliabel: Definition von Reliabilität

Was bedeutet reliabel? Wie genau lässt sich Reliabilität definieren? Die Definition von Reliabilität ist:

Das Gütekriterium Reliabilität bezeichnet die Genauigkeit von Messungen, Messinstrumenten und Ergebnissen.

Egal was man misst, man ist meist daran interessiert, ein möglichst genaues Ergebnis zu haben. Wichtig ist, dass hier nur die Genauigkeit gemeint ist, unabhängig davon, ob auch das gemessen wird, was man messen will. Ein Intelligenztest hat also beispielsweise immer die selbe Reliabilität, unabhängig davon, ob man ihn verwenden will, Intelligenz zu messen – wofür er konstruiert wurde – oder die Körpertemperatur.

Reliabilitätsanalyse: Reliabilität berechnen

Es gibt sehr verschiedene Ansätze und Arten der Realiabilitätsanalyse, mit denen Wissenschaftler Reliabilität berechnen. Die Abbildung gibt eine Übersicht.

Realiabilität: Ansätze der Reliabilitätsanalyse

Im Folgenden sind die wichtigsten davon aufgelistet: Retest-Reliabilität, Paralleltests, Split-Half-Methode und Konsistenzanalyse. Dabei geht der Beitrag darauf ein, wann die einzelnen Verfahren sinnvoll sind und gibt eine klare Empfehlung, welcher Ansatz meist der beste ist.

Test-Retest-Methode

Einmal kann man Reliabilität durch wiederholte Messung des Gleichen erheben, die sogenannte Retest-Reliabilität. So kann man etwa die Intelligenz bei den selben Personen wiederholt messen und aus der Korrelation zwischen den Ergebnissen auf die Genauigkeit des Tests schließen. Dieses Verfahren hat seine Probleme, da Lerneffekte wahrscheinlich sind. Auch können sich einige Konstrukte wie Kundenzufriedenheit oder Kundenvertrauen über die Zeit deutlich ändern – mitunter schon alleine deshalb, weil Personen wiederholt danach gefragt werden.

Das Verfahren eignet sich also nur dann wenn:

  • Ein stabiles Merkmal gemessen wird, das sich nicht viel über die Zeit ändert. Persönlichkeit ist daher ganz gut geeignet, da diese sehr stabil ist. Intelligenz ist schon schwieriger, eher im Mittelfeld, da die Leistung je nach Verfassung, Tageszeit, vorangehenden Aktivitäten Schlaf, Ernährung etc. schwanken kann. Emotionen sind eher ungeeignet, da diese schnell schwanken können.
  • Die Personen langfristig zugänglich sind für eine Messung. Das ist oft nicht möglich oder sehr aufwändig und teuer.
  • Lerneffekte gering sind. Bei vielen psychologischen Tests kann man davon ausgehen, dass Personen sich im Nachgang damit befassen und zudem eine gewisse Routine aufbauen. Wer immer wieder Intelligenztests bearbeitet wird darin besser – aber nicht intelligenter.

Insgesamt ist diese Methode daher nur sehr eingeschränkt zu empfehlen.

Reliabilitätsanalyse mit Parallel-Test

Eine eher seltene Methode zur Bestimmung der Reliabilität sind Paralleltests. Hierzu müssen zwei Versionen eines Instrumentes (Version A und Version B) mit unterschiedlichen Frageitems erstellt werden. Beide Versionen werden den gleichen Personen hintereinander gegeben. Aus der Korrelation beider Instrumente lässt sich auf die Messgenauigkeit schließen.

Das Verfahren eignet sich, wenn:

  • Zwei wirklich gleichwertige Versionen müssen vorhanden sein. Oft ist das zu aufwändig zu erstellen.
  • Setzt man die beiden Versionen gleich hintereinander ein, dürfen sie nicht zu lang sein, sonst ermüden die Teilnehmer und produzieren schlechte Antworten, die Reliabilität sinkt.
  • Wartet man länger mit dem erneuten Test, dann sollte es ein stabiles Merkmal bzw, Konstrukt sein, dass der Test misst – genauso wie bei der Test-Retest-Methode.
  • Zudem eignet sich der Ansatz nur, wenn keine Veränderung der Probanden (etwa durch Testlernen) anzunehmen ist.

Alles in allem überwiegen die Nachteile bei dieser Methode, weshalb sie eher nicht zu empfehlen ist.

Split-Half-Methode: Testhalbierung

Um Nachteile von wiederholter Messung zu vermeiden, gibt es statistische Verfahren der internen Konsistenz. So wird bei der Split-Half-Reliabilität (Testhalbierung) der Test bzw. seine Items (Fragen) in zwei künstliche Hälften geteilt, die miteinander korreliert werden. Je höher der Zusammenhang zwischen den Hälften, desto genauer die Messung.

Das Verfahren eignet sich, wenn:

  • Genug Probanden befragt wurden, um ausreichende Daten zu haben.
  • Der Test genug Items hat, um zwei immer noch substantielle Hälften zu bilden.
  • Nur Items, die das gleiche innerhalb des Test messen, miteinander korreliert werden.

Nimmt man nur den halben Test, ist die Messung natürlich ungenauer, die Korrelation der Testhälften unterschätzt die wahre Genauigkeit des Tests. Dafür gibt es die Spearman-Brown-Korrektur.

Interne Konsistenz der Items: Konsistenzanalyse

Das in den meisten Fällen beste Verfahren der Reliabilitätsanalyse ist die Konsistenzanalyse. Sie korreliert jeweils ein Item mit allen anderen Items aus dem selben Bereich des Tests. Die einzelnen Fragen sollten hoch untereinander zusammenhängen, damit der Test genau misst. Die Konsistenzanalyse behandelt also jede einzelnen Frage des Tests wie einen einzelnen Test. Je synchroner sich die Fragen bei einer Messung verhalten, desto genauer die Messung.

Je nach Skalenniveau der Items gibt es bei der Konsistenzanalyse bestimmte Kennwerte für die Reliabilität.– zum Beispiel Cronbachs Alpha bzw. tau-äquivalente Reliabilität bei intervallskalierten Items.

Interne Konsistenz kann schnell und zuverlässig einen sehr guten Anhaltspunkt für die Reliabilität von Skalen und Tests liefern. Meist findet gleichzeitig eine Analyse der Trennschärfe von Items statt – man untersucht welche der Items sich so wie die anderen verhalten und welche nicht. Oft eliminiert man Items, die nicht hoch mit den anderen korrelieren und erhöht damit die interne Konsistenz.

Ein Eliminieren von Items geht dann aber oft auf Kosten der Breite einer Messung, der Inhaltsvalidität. Reliabilität und Validität verhalten sich also auch manchmal als Gegenspieler. Höhere Reliabilität durch das eliminieren von Items macht Tests oft inhaltlich eindimensionaler – das Reliabilitäts-Validitäts-Dilemma.

Sinnvoll ist daher folgender Ansatz: Items mit geringer Trennschärfe genau inspizieren und auf die Ursachen überprüfen. Messen die Items einfach schlecht (vielleicht weil sie missverständlich sind oder vielen Probanden der Wortschatz fehlt) dann weg damit. Messen die Items aber einen anderen wichtigen Aspekt eines komplexen Konstruktes (beispielsweise von Intelligenz) dann sollte man eher weitere Items in diese Richtung bilden und eine zusätzliche Skala erstellen. Moderne Tests (etwa der Persönlichkeit) messen daher typischerweise Konstrukte mit mehreren Skalen, die jeweils innerhalb von sich selbst hohe Konsistenz haben und idealerweise mit den Items anderer anderen Skalen nur gering korrelieren.

Der nächste Abschnitt behandelt die Interrater-Reliabilität.

Interrater-Reliabilität

Die Interrater-Reliabilität oder Urteilerübereinstimmung ist die direkte Verbindung der beiden Gütekriterien Reliabilität und Objektivität.

Sie misst das Maß der Übereinstimmung, wenn mehrere Personen die gleichen Daten auswerten oder interpretieren. Bei vollkommener Übereinstimmung geht man von einer objektiven Auswertung oder Interpretation aus. Meist wird dazu eine Korrelation der Übereinstimmung berechnet. Damit ist die Interrater-Reliabilität ein direktes statistisches Maß für die interindividuelle Objektivität.

Beispiel: Drei Personen (Rater) werten Videos von Teamarbeit aus nach unterstützendem Verhalten, das einzelnen Personen zeigen. Was unterstützendes Verhalten ist und was nicht, wurde vorher klar definiert. Sie zählen jedes unterstützende Verhalten der einzelnen Teammitglieder. Bei hoher Auswertungsobjektivität, sollten sehr ähnliche Werte zwischen den Ratern eintreten. Um diese Auswertungsobjektivität zu berechnen korreliert man die Werte der einzelnen Rater miteinander – man berechnet die Interrater-Reliabilität.

Hier die Definition:

Die Interrater-Reliabilität berechnet die Übereinstimmung der Ergebnisse mehrerer Rater bei der Auswertung oder Interpretation der gleichen Daten.

Intrarater-Reliabilität

Sehr ähnlich ist die Intrarater-Reliabilität. Diese kann man berechnen, wenn man den gleichen Rater zu mehreren Zeitpunkten das selbe Material (etwa die Videos aus obigem Beispiel) auswerten oder interpretieren lässt. Idealerweise sollten sehr ähnliche Ergebnisse auftreten. Das spricht dann für eine hohe intraindividuelle Objektivität.

Hier die Definition:

Die Intrarater-Reliabilität berechnet die Übereinstimmung der Ergebnisse des gleichen Raters bei der wiederholten Auswertung oder Interpretation der gleichen Daten.

Der nächste Abschnitt zeigt, wie man Reliabilität erhöhen kann.

Reliabilität erhöhen: Tipps

Wie kann man die Reliabilität verbessern?

Praxistipps

Der letzte Abschnitt gibt Literaturhinweise zur weiteren Vertiefung.

Reliabilität als Gütekriterium: Literatur

Aktuelle Literatur-Tipps zu Reliabilität als Gütekriterium.

Tipp
Tipp

Das nächste Kapitel stellt Validität als Gütekriterium vor.