Validität als Gütekriterium – Wirtschaftspsychologische Gesellschaft

Vielleicht messe ich genau – aber messe ich überhaupt das, was gemessen werden soll? Letztendlich geht es nicht nur darum, etwas genau zu messen. Vor allem ist wichtig, tatsächlich das zu messen, was man messen möchte. Häufig sind Untersuchungen, Tests und Studien zwar sehr reliabel aber nicht valide.
Dieses Kapitel definiert Validität als Gütekriterium der Psychologie, stellt verschiedene Arten von Validität (dt. Gültigkeit) vor und liefert Tipps, wie man sie erhöhen kann. Dabei gibt der Text immer Hinweise zum Berechnen. Konkrete Inhalte sind Inhaltsvalidität, Konstruktvalidität und diskriminante Validität, Kriteriumsvalidität, interne und externe Validität. Nach dem Lesen kann man folgende Fragen beantworten: „Was ist Validität?“, „Wie kann man Validität messen?“ und „Wie kann man Validität erhöhen?“ …

Validität bezieht sich auf die Gültigkeit einer Messung: Messe ich real das, was gemessen werden soll?

In diesem Beitrag:

Validität und valide: Definition

Was bedeutet valide?Was ist Validität? Validität ist das wichtigste der drei klassischen Gütekriterien. Die Definition ist:

Das Gütekriterium bezeichnet die Gültigkeit einer Messung, d.h. ob überhaupt das gemessen wurde, was gemessen werden sollte.

Valide sind Test, Erhebungen und Untersuchungen also dann, wenn sie das messen, was sie messen sollen. Wurde überhaupt nicht das gemessen, was gemessen werden sollte, dann ist die Qualität von Ergebnissen natürlich denkbar schlecht. Es liegt außerdem auf der Hand, dass ohne Objektivität und Reliabilität auch nicht sauber das gemessen werden kann, was man messen will. Störeinflüsse bei der Durchführung, Auswertung oder Interpretation von Daten gefährden die Validität der Ergebnisse. In so fern sind die bereits behandelten Gütekriterien Objektivität und Reliabilität als Voraussetzungen für Validität zu betrachten. Doch Validität geht über die bloße Gewährleistung von Objektivität und Reliabilität hinaus.

Inhaltsvalidität

Validität ist eine Folge von inhaltlicher Deckung von zu messendem Konstrukt und verwendetem Testinstrument. Soll zum Beispiel Kundenvertrauen im Mobilfunkbereich gemessen werden, so sollten alle wesentlichen Komponenten des Kundenvertrauens im Test enthalten sein. Auf der anderen Seite sollte nichts unwesentliches, was nichts mit Vertrauen zu tun hat, enthalten sein. Diese Repräsentativität für einen Inhaltsbereich bezeichnet man als Inhaltsvalidität.

ist das Ausmaß der Deckung zwischen einem Messverfahren bzw. einer und dem zu messenden .

Folgende Abbildung (vgl. Neumann, 2003a) zeigt, dass Inhaltsvalidität maximal ist, wenn der Anteil an relevanten Determinanten des Konstruktes im Indikator (Messinstrument) maximal ist und der Anteil irrelevanter Determinanten im Indikator minimal ist. Je größer die Schnittmenge aus Indikator und zu messendem Konstrukt, desto größer die Inhaltsvalidität.

Wie kann man Inhaltsvalidität berechnen? Dazu der folgende Abschnitt.

Konstruktvalidität und diskriminante Validität

Inhaltsvalidität erfordert Konstruktvalidität und diskriminante Validität als Voraussetzungen.

Eng mit der Inhaltsvalidität verknüpft ist die Konstruktvalidität, die empirisch erfasst werden kann. Sie ist die Überlappung des Indikators mit dem zu messendem Konstrukt in obiger Abbildung. Konstruktvalidität ist gegeben, wenn ein Testinstrument einerseits stark mit Tests korreliert, die das selbe theoretische Konstrukt (z.B. Vertrauen) messen sollen und andererseits niedrig mit Testinstrumenten korreliert, die etwas gänzlich anderes messen sollen. Diese niedrige Korrelation mit Instrumenten, die etwas anderes messen sollen, bezeichnet man als diskriminante Validität.

Möchte man Inhaltsvalidität berechnen, dann wird man typischerweise den gleichen Personen den neu entwickelten Test zusammen mit bereits vorhandenen Tests für das gleiche Konstrukt (aus der idealerweise hohen Korrelation ergibt sich die Konstruktvalidität) und bereits vorhandenen Tests für andere aber verwandte Konstrukte (aus der idealerweise niedrigen Korrelation ergibt sich die diskriminante Validität) vorgeben. Die diskriminante Validität bezieht sich auf einen möglichst geringen Anteil irrelevanter Determinanten im Test (vergleiche obige Abbildung).

Der nächste Abschnitt behandelt die Frage, ob eine Messung mit wichtige Kriterien zusammenhängt.

Kriteriumsvalidität

Eine etwas andere Auffassung von Validität spiegelt sich im Begriff Kriteriumsvalidität wieder. Diese bezieht sich darauf, ob ein Test mit interessanten und theoretisch damit verknüpften Außenkriterien zusammenhängt.

ist der Zusammenhang zwischen einem Messverfahren bzw. einer mit relevanten anderen Variablen.

Insbesondere für die praktische Anwendung (etwa bei der Personaldiagnostik oder Kundenforschung in Unternehmen) ist dies eine entscheidende Frage zur Beurteilung der Qualität eines Instrumentes. Am Beispiel Kundenvertrauen im Mobilfunkbereich bedeutet Kriteriumsvalidität, dass ein entsprechendes Messinstrument statistisch mit Außenkriterien zusammenhängen sollte. Typische Außenkriterien wären in diesem Fall die Bereitschaft Kunde zu werden bei potenziellen Kunden, Kundenbindung bzw. Vertragsverlängerung bei Bestandskunden, Cross-Buying von anderen Angeboten (DSL und Handyzubehör) oder Weiterempfehlung an Freunde und Bekannte.

Arten der Kriteriumsvalidität: Retrospektive Validität, konkurrente Validität, prognostische Validität (Vorhersagevalidität)

Kriterien können mit einem Testinstrument entweder zum selben Zeitpunkt erhoben werden (konkurrente Validität), in der Zukunft erhoben werden (prognostische Validität) oder in der Vergangenheit erfasst worden sein (retrospektive Validität). In der Regel wird man sich für die Prognosefähigkeit eines Test interessieren, beispielsweise, wie gut er Kundenbindung und Kaufverhalten vorhersagen kann. Konkurrente und retrospektive Berechnungen werden meist herangezogen, weil die Daten bereits verfügbar sind, um damit auf die Zukunft zu schließen.

Hat ein Test höhere Kriteriumsvalidität als bisher vorhandene Instrumente bezeichnet man dies als inkrementelle Validität.

Die nächsten Abschnitte behandeln interne und externe Validität.

Interne Validität

Betrachtet man Validität auf der Ebene ganzer Untersuchungen, unterscheiden sich interne Validität und externe Validität.

Die Definition für interne Validität ist:

Interne beschreibt, dass die Ergebnisse in einer Untersuchung nicht durch störende Einflüsse (Störvariablen) erklärbar sind und tatsächlich an der oder den unabhängigen Variablen liegen.

Die Variation der abhängigen Variable(n) in einer Untersuchung kann dann tatsächlich auf die unabhängige Variable(n) zurückgeführt werden. Störvariablen sind ausgeschaltet oder kontrolliert.

Eine typische Störvariable ist, wenn Personen in einem Versuch merken, dass ihr Verhalten beobachtet wird. Soll etwa untersucht werden, wie sich unterschiedlich intensive Beleuchtung (unabhängige Variable) auf die Produktivität (abhängige Variable) von Bandarbeitern auswirkt, sollten diese nicht bemerken, dass ihr Verhalten beobachtet wird (Störvariable). Nehmen wir an, die Bandarbeiter haben bemerkt, dass sich die Intensität der Beleuchtung ändert und sie wurden vom Betriebsrat heimlich informiert, dass es sich um ein Experiment handelt. Veränderungen in der Produktivität können dann nicht mehr klar zugeordnet werden. Liegen die Veränderungen an der Beleuchtung oder an der Tatsache, dass die Bandarbeiter wissen, dass ihr Verhalten beobachtet wird?

Was ist jetzt die externe Validität? Dazu der nächste Abschnitt.

Externe Validität bzw. ökologische Validität

Während sich interne Validität auf die Gültigkeit der Ergebnisse innerhalb einer Untersuchung beziehen, behandelt externe Validität die Frage, ob Ergebnisse aus einer Untersuchung übertragbar auf andere Situationen sind. Man bezeichnet das als Übertragbarkeit bzw. Generalisierbarkeit von Ergebnissen.

Hier die Definition für externe Validität:

Externe ist ein anderes Wort für Generalisierbarkeit und beschreibt das Ausmaß der Übertragbarkeit von Ergebnissen.

Wie folgende Abbildung zeigt, kann Generalisierbarkeit auf verschiedenen Ebenen betrachtet werden :

andere Situationen (Hier geht es vor allem das sogenannte Feld, also reale Situationen etwa beim Kaufverhalten von Kunden oder dem Arbeitsverhalten von Mitarbeitern. Lässt sich z.B. aus einem Online-Experiment zu verschiedenen Werbeformen tatsächlich auf die tatsächliche Wirkung im Feld schließen? ),
Personenpopulationen (z.B. Lassen sich Forschungsergebnisse mit deutschen Mitarbeitern auf chinesische Mitarbeiter übertragen?) und
Zeitpunkte (z.B. Wie lange sind die Ergebnisse aus einer Mitarbeiterbefragung gültig?).

Externe Validität berührt die Frage nach der Generalisierbarkeit von Ergebnissen auf andere Zeitpunkte, Umweltkontexte und Personen (Populationen)

Zum Abschluss folgen Tipps, um die Validität zu erhöhen.

Validität erhöhen: Tipps

Wie kann man Validität erhöhen? Hier die entscheidenden Tipps.

Praxistipps

Mit folgenden Maßnahmen lässt sich die Validität von Ergebnissen erhöhen:

Konstrukte, die man messen möchte (z.B. Kundenvertrauen oder emotionale Bindung von Mitarbeitern), müssen sehr sauber definiert und von anderen ähnlichen Konstrukten abgegrenzt werden (etwa im Fall von Kundenvertrauen sollte Kundenvertrauen klar von der Kundenzufriedenheit abgegrenzt und nicht damit vermengt werden).
Es ist sicherzustellen, dass in Tests, Fragebögen etc. nur Inhalte abgefragt werden, die wirklich zum relevanten Konstrukt gehören. Das bedeutet, dass möglichst alle Aspekte, die dazu gehören abgefragt werden und alle Inhalte ausgeklammert sind, die zu anderen Konstrukten gehören.
Um diese Abgrenzungen sauber vorzunehmen, empfiehlt sich eine rigide Analyse der aktuellen wissenschaftlichen Literatur zu den betreffenden Konstrukten, die Befragung von Experten (etwa ausgewiesenen Forschern im betreffenden Bereich) vor und nach der Sammlung von möglichen Fragen für Tests und die Selektion und Anpassung der Fragen nach Expertengesichtspunkten.
Kriteriumsvalidität ist wichtig, insbesondere in der Praxis. Was nützt ein Konstrukt, wenn man nichts damit vorhersagen kann? Allerdings ist mangelnde Kriteriumsvalidität auch ein guter Anhaltspunkt, um zu wissen, wann man ein Konstrukt nicht beachten muss. Etwas, das nichts vorhersagen kann und mit nichts wichtigem zusammenhängt, muss in der Praxis nicht beachtet werden. Fatalerweise werden Konstrukte bei praktischen Befragungen oft mit anderen Inhalten vermengt – etwa Fragen zur emotionalen Bindung an eine Marke mit Fragen zur Motivation diese Marke zu kaufen. Dass man dann in den Ergebnissen schöne Zusammenhänge mit der Kaufbereitschaft und Kaufverhalten findet, ist natürlich nicht verwunderlich. Es ist aber irreführend und erlaubt keinerlei Schluss mehr darüber, ob emotionale Bindung wirklich relevant ist bei dieser Marke und Zielgruppe. Im Zweifel führt dieses verbreitete Problem dazu, dass man fälschlicherweise davon ausgeht, dass ein Thema ganz wesentlich ist. In der Folge investieren Unternehmen an der falschen Stelle. Etwa investieren sie in emotionale Markenbindung bei Kunden, die viel stärker auf Preisunterschiede reagieren. Also: Kriteriumsvalidität ja – aber nie auf Kosten der Konstruktvalidität.
In der Praxis kommt es auf externe Validität an. Wer sagt, dass Daten, die bei US-Mitarbeitern erhoben wurden, auch für Deutschland gelten? Können die 40 Prozent Mitarbeiter, die bei einer Befragung mitgemacht haben, wirklich für alle anderen sprechen – oder gibt es systematische Unterschiede? Wieso sollten Ergebnisse einer Befragung von Kunden zu Kaufkriterien nach einem Jahr immer noch gelten? Es sollte also unbedingt immer sehr kritisch gefragt werden: Bei welcher Stichprobe, in welcher Situation und zu welchem Zeitpunkt wurden Daten erhoben? Lassen sich die Ergebnisse guten Gewissens auf andere Fälle übertragen? Und wenn man sich dafür entscheidet, etwa weil unsichere Ergebnisse besser sind als nichts: Welche Abweichungen, Unterschiede sind bei dieser Übertragung wahrscheinlich?

Auf Basis dieser Maßnahmen kann bei vorhandene Ergebnissen und Daten eingeschätzt werden, wie valide diese sind. Je weniger die Maßnahmen eingehalten wurden, desto schlechter ist die Validität von Ergebnissen – und desto kritischer sollte man diese Ergebnisse betrachten.

... mehr

... weniger

Der letzte Abschnitt gibt Literaturhinweise zur weiteren Vertiefung.