Vielleicht messe ich genau – aber messe ich überhaupt das, was gemessen werden soll? Letztendlich geht es nicht nur darum, etwas genau zu messen. Vor allem ist wichtig, tatsächlich das zu messen, was man messen möchte. Häufig sind Untersuchungen, Tests und Studien zwar sehr reliabel aber nicht valide.
Dieses Kapitel definiert Validität als Gütekriterium der Psychologie, stellt verschiedene Arten von Validität (dt. Gültigkeit) vor und liefert Tipps, wie man sie erhöhen kann. Dabei gibt der Text immer Hinweise zum Berechnen. Konkrete Inhalte sind Inhaltsvalidität, Konstruktvalidität und diskriminante Validität, Kriteriumsvalidität, interne und externe Validität. Nach dem Lesen kann man folgende Fragen beantworten: „Was ist Validität?“, „Wie kann man Validität messen?“ und „Wie kann man Validität erhöhen?“ …
In diesem Beitrag:
Validität und valide: Definition
Was bedeutet valide?Was ist Validität? Validität ist das wichtigste der drei klassischen Gütekriterien. Die Definition ist:
Valide sind Test, Erhebungen und Untersuchungen also dann, wenn sie das messen, was sie messen sollen. Wurde überhaupt nicht das gemessen, was gemessen werden sollte, dann ist die Qualität von Ergebnissen natürlich denkbar schlecht. Es liegt außerdem auf der Hand, dass ohne Objektivität und Reliabilität auch nicht sauber das gemessen werden kann, was man messen will. Störeinflüsse bei der Durchführung, Auswertung oder Interpretation von Daten gefährden die Validität der Ergebnisse. In so fern sind die bereits behandelten Gütekriterien Objektivität und Reliabilität als Voraussetzungen für Validität zu betrachten. Doch Validität geht über die bloße Gewährleistung von Objektivität und Reliabilität hinaus.
Inhaltsvalidität
Validität ist eine Folge von inhaltlicher Deckung von zu messendem Konstrukt und verwendetem Testinstrument. Soll zum Beispiel Kundenvertrauen im Mobilfunkbereich gemessen werden, so sollten alle wesentlichen Komponenten des Kundenvertrauens im Test enthalten sein. Auf der anderen Seite sollte nichts unwesentliches, was nichts mit Vertrauen zu tun hat, enthalten sein. Diese Repräsentativität für einen Inhaltsbereich bezeichnet man als Inhaltsvalidität.
Folgende Abbildung (vgl. Neumann, 2003a) zeigt, dass Inhaltsvalidität maximal ist, wenn der Anteil an relevanten Determinanten des Konstruktes im Indikator (Messinstrument) maximal ist und der Anteil irrelevanter Determinanten im Indikator minimal ist. Je größer die Schnittmenge aus Indikator und zu messendem Konstrukt, desto größer die Inhaltsvalidität.
Wie kann man Inhaltsvalidität berechnen? Dazu der folgende Abschnitt.
Konstruktvalidität und diskriminante Validität
Inhaltsvalidität erfordert Konstruktvalidität und diskriminante Validität als Voraussetzungen.
Eng mit der Inhaltsvalidität verknüpft ist die Konstruktvalidität, die empirisch erfasst werden kann. Sie ist die Überlappung des Indikators mit dem zu messendem Konstrukt in obiger Abbildung. Konstruktvalidität ist gegeben, wenn ein Testinstrument einerseits stark mit Tests korreliert, die das selbe theoretische Konstrukt (z.B. Vertrauen) messen sollen und andererseits niedrig mit Testinstrumenten korreliert, die etwas gänzlich anderes messen sollen. Diese niedrige Korrelation mit Instrumenten, die etwas anderes messen sollen, bezeichnet man als diskriminante Validität.
Möchte man Inhaltsvalidität berechnen, dann wird man typischerweise den gleichen Personen den neu entwickelten Test zusammen mit bereits vorhandenen Tests für das gleiche Konstrukt (aus der idealerweise hohen Korrelation ergibt sich die Konstruktvalidität) und bereits vorhandenen Tests für andere aber verwandte Konstrukte (aus der idealerweise niedrigen Korrelation ergibt sich die diskriminante Validität) vorgeben. Die diskriminante Validität bezieht sich auf einen möglichst geringen Anteil irrelevanter Determinanten im Test (vergleiche obige Abbildung).
Der nächste Abschnitt behandelt die Frage, ob eine Messung mit wichtige Kriterien zusammenhängt.
Kriteriumsvalidität
Eine etwas andere Auffassung von Validität spiegelt sich im Begriff Kriteriumsvalidität wieder. Diese bezieht sich darauf, ob ein Test mit interessanten und theoretisch damit verknüpften Außenkriterien zusammenhängt.
Insbesondere für die praktische Anwendung (etwa bei der Personaldiagnostik oder Kundenforschung in Unternehmen) ist dies eine entscheidende Frage zur Beurteilung der Qualität eines Instrumentes. Am Beispiel Kundenvertrauen im Mobilfunkbereich bedeutet Kriteriumsvalidität, dass ein entsprechendes Messinstrument statistisch mit Außenkriterien zusammenhängen sollte. Typische Außenkriterien wären in diesem Fall die Bereitschaft Kunde zu werden bei potenziellen Kunden, Kundenbindung bzw. Vertragsverlängerung bei Bestandskunden, Cross-Buying von anderen Angeboten (DSL und Handyzubehör) oder Weiterempfehlung an Freunde und Bekannte.
Kriterien können mit einem Testinstrument entweder zum selben Zeitpunkt erhoben werden (konkurrente Validität), in der Zukunft erhoben werden (prognostische Validität) oder in der Vergangenheit erfasst worden sein (retrospektive Validität). In der Regel wird man sich für die Prognosefähigkeit eines Test interessieren, beispielsweise, wie gut er Kundenbindung und Kaufverhalten vorhersagen kann. Konkurrente und retrospektive Berechnungen werden meist herangezogen, weil die Daten bereits verfügbar sind, um damit auf die Zukunft zu schließen.
Hat ein Test höhere Kriteriumsvalidität als bisher vorhandene Instrumente bezeichnet man dies als inkrementelle Validität.
Die nächsten Abschnitte behandeln interne und externe Validität.
Interne Validität
Betrachtet man Validität auf der Ebene ganzer Untersuchungen, unterscheiden sich interne Validität und externe Validität.
Die Definition für interne Validität ist:
Die Variation der abhängigen Variable(n) in einer Untersuchung kann dann tatsächlich auf die unabhängige Variable(n) zurückgeführt werden. Störvariablen sind ausgeschaltet oder kontrolliert.
Eine typische Störvariable ist, wenn Personen in einem Versuch merken, dass ihr Verhalten beobachtet wird. Soll etwa untersucht werden, wie sich unterschiedlich intensive Beleuchtung (unabhängige Variable) auf die Produktivität (abhängige Variable) von Bandarbeitern auswirkt, sollten diese nicht bemerken, dass ihr Verhalten beobachtet wird (Störvariable). Nehmen wir an, die Bandarbeiter haben bemerkt, dass sich die Intensität der Beleuchtung ändert und sie wurden vom Betriebsrat heimlich informiert, dass es sich um ein Experiment handelt. Veränderungen in der Produktivität können dann nicht mehr klar zugeordnet werden. Liegen die Veränderungen an der Beleuchtung oder an der Tatsache, dass die Bandarbeiter wissen, dass ihr Verhalten beobachtet wird?
Was ist jetzt die externe Validität? Dazu der nächste Abschnitt.
Externe Validität bzw. ökologische Validität
Während sich interne Validität auf die Gültigkeit der Ergebnisse innerhalb einer Untersuchung beziehen, behandelt externe Validität die Frage, ob Ergebnisse aus einer Untersuchung übertragbar auf andere Situationen sind. Man bezeichnet das als Übertragbarkeit bzw. Generalisierbarkeit von Ergebnissen.
Hier die Definition für externe Validität:
Wie folgende Abbildung zeigt, kann Generalisierbarkeit auf verschiedenen Ebenen betrachtet werden :
- andere Situationen (Hier geht es vor allem das sogenannte Feld, also reale Situationen etwa beim Kaufverhalten von Kunden oder dem Arbeitsverhalten von Mitarbeitern. Lässt sich z.B. aus einem Online-Experiment zu verschiedenen Werbeformen tatsächlich auf die tatsächliche Wirkung im Feld schließen? ),
- Personenpopulationen (z.B. Lassen sich Forschungsergebnisse mit deutschen Mitarbeitern auf chinesische Mitarbeiter übertragen?) und
- Zeitpunkte (z.B. Wie lange sind die Ergebnisse aus einer Mitarbeiterbefragung gültig?).
Zum Abschluss folgen Tipps, um die Validität zu erhöhen.
Validität erhöhen: Tipps
Wie kann man Validität erhöhen? Hier die entscheidenden Tipps.
Der letzte Abschnitt gibt Literaturhinweise zur weiteren Vertiefung.
Validität: Literatur
Aktuelle Literatur-Tipps zu Validität als Gütekriterium.
- Döring, Nicola (Autor)
- Sedlmeier, Peter (Autor)
Das nächste Kapitel behandelt die Beziehungen der Gütekriterien untereinander.