1. Gütekriterien wissenschaftlicher Forschung

Die empirische Wissenschaft, vor allem die Psychologie, hat wissenschaftliche Gütekriterien für Forschungsergebnisse entwickelt. Diese gelten gleichsam für Messverfahren wie Tests und dienen zur Bewertung von Messungen, Messinstrumenten und Ergebnissen. Dieses Kapitel gibt eine Übersicht der Hauptgütekriterien und Nebengütekriterien und zeigt, an welchen Stellen im Forschungsprozess die Bewertung und Interpretation von Ergebnissen eine Rolle spielt. …

Wissenschaftliche Gütekriterien bewerten Daten: Diamant oder nur Glas und Staub?
Wissenschaftliche Gütekriterien bewerten Daten: Diamant oder nur Glas und Staub?

Gütekriterien: Definition und Anwendungen

Worauf beziehen sich wissenschaftliche Gütekriterien? Typische Anwendungen für (und damit auch Einflüsse auf) Gütekriterien in der Psychologie sind:

  • Messverfahren. Dazu gehören psychologische Tests, Fragebögen, Beobachtungsmethoden und auch Kombinationen aus Messverfahren wie etwa Assessment Center.
  • Versuchsbedingungen. Versuchsbedingungen beeinflussen die Güte von Daten. Sind Versuche schlecht geplant und Störvariablen vorhanden und unkontrolliert (etwa, dass Probanden einen Versuch durchschauen, den sie nicht durchschauen sollten), dann nutzt das beste Messverfahren nichts.
  • Auswahl der Versuchsteilnehmer. Sind Probanden systematisch und nicht repräsentativ ausgewählt, leidet die Interpretierbarkeit der Ergebnisse. Man kann sie dann nicht auf die Grundgesamtheit übertragen.
  • Auswertungsverfahren. Auch wenn ein Messverfahren gut ist, kann die Güte von Daten bei der Auswertung beschädigt werden. Bestimmte Auswertungen, etwa durch ungeschulte Datencodierer, ohne klare Auswertungspläne oder mit ungeeigneten statistischen Methoden sind typische Fehlerquellen.
  • Interpretation der Ergebnisse. Die vorangegangenen Punkte bestimmen die Güte der Ergebnisse. Aber auch bei der Interpretation passieren Fehler, die dann die Güte der Botschaft, die aus den Daten gelesen wird beeinträchtigt. Es ist in der Praxis nicht selten, dass genau hier Fehler passieren, nicht objektiv und sauber Schlüsse aus den Daten gezogen werden. Ein typischer Grund ist Unvermögen, etwa weil viele Menschen keine Ahnung von Statistik haben und beispielsweise rein statistische Zusammenhänge und Ursache-Wirkungs-Zusammenhänge verwechseln. Ein anderer Grund sind politische Absichten. Man möchte Bestätigung für eine bestimmte Annahme oder These haben oder eine anderen widerlegt haben – und das wird dann auch so hin-interpretiert, bis es passt.

Aus diesem Überblick lässt sich für Gütekriterien diese Definition ableiten:

Gütekriterien sind Qualitätsindikatoren für Ergebnisse und ihre Entstehungsbedingungen im Forschungsprozess – beispielsweise Messverfahren, Auswertungsverfahren und Verfahren der Ergebnisinterpretation.

Gütekriterien helfen Praktikern dabei, Ergebnisse wissenschaftlich begründet zu hinterfragen und Wissenschaftlern dabei, wissenschaftlich sauber zu arbeiten.

Klassische Gütekriterien bzw. Hauptgütekriterien

Um Ergebnisse interpretieren zu können und Forschung planen zu können, gibt es Qualitätsindikatoren. Die sogenannten klassischen Gütekriterien (auch Hauptgütekriterien) fokussieren rein auf die Entstehung der Ergebnisse und deren Qualität. Es sind im einzelnen:

  • Objektivität. Sind die Ergebnisse unabhängig von ungewollten Einflüssen durch die erhebenden Personen entstanden?
  • Reliabilität. Wie genau ist die Messung?
  • Validität. Wird wirklich das gemessen, was man messen möchte?

Naturgemäß legt man in der wissenschaftlichen Forschung ein stärkeres Augenmerk auf die klassischen Gütekriterien, es geht sozusagen um die Wahrheit – in der Praxis bei Projekten, die Mitarbeiter oder Kunden erforschen, fokussiert man eher auf die Nebengütekriterien, es geht um Effizienz und Nützlichkeit. Darum geht es im nächsten Abschnitt zu den Nebengütekriterien.

Nebengütekriterien

Die klassischen Gütekriterien wurden ergänzt mit Nebengütekriterien, die sich auf  Aspekte rund um die Qualität der Ergebnisse und die verwendeten Erhebungsmethoden konzentrieren.

  • Akzeptanz. Wird ein Verfahren, mit dem Daten erhoben werden sollen, überhaupt akzeptiert – sei es in rechtlicher oder gesellschaftlicher Hinsicht oder auch von den Teilnehmern und Entscheidern? Ist eine bestimmte Art von Daten akzeptiert – etwa genetische Profile von Mitarbeitern?
  • Nützlichkeit. Kann aus Ergebnissen irgendetwas sinnvolles abgeleitet werden, werden Entscheidungen besser, wenn diese Ergebnisse verfügbar sind? Bezieht man beispielsweise die Nutzer der mit einer Untersuchung gewonnen Information zu wenig ein und berücksichtigt deren Informationsbedarf zu wenig, dann ist die Nützlichkeit gefährdet.
  • Ökonomie. Welches Vorgehen ist am schnellsten und günstigsten, um die benötigten Ergebnisse in der benötigten Qualität zu liefern?

Naturgemäß legt man in der wissenschaftlichen Forschung ein stärkeres Augenmerk auf die klassischen Gütekriterien, es geht sozusagen um die Wahrheit – in der Praxis bei Projekten, die Mitarbeiter oder Kunden erforschen, fokussiert man eher auf die Nebengütekriterien, es geht um Effizienz und Nützlichkeit.

Gütekriterien der Forschung im Forschungsprozess

In der Praxis gilt es in vielen Situationen Ergebnisse zu bewerten und zu interpretieren, beispielsweise Ergebnisse aus Mitarbeiterbefragungen und Kundenbefragungen. Folgende Abbildung stellt Schritte im Forschungsprozess dar, die für die Bewertung von Forschungsergebnissen mit wissenschaftlichen Gütekriterien entscheidend sind.

Forschungsprozess: Phasen und Gütekriterien

Hier erfolgt schon ein kleiner Überblick, ein eigenes Kapitel zu Fehlern im Forschungsprozess betont nochmal die Risiken in den einzelnen Phasen im Detail. Orientiert man sich am Ablauf eines Forschungsprozesses, dann gibt es Phasen, die für die Güte von Ergebnissen besonders relevant sind:

Analyse der Ausgangsbedingungen
Bevor eine neue Erhebung startet, erfolgt idealerweise eine Auswertung bereits vorhandener Studien und Daten. Daraus lässt sich ableiten, ob eine neue Erhebung sinnvoll ist und Ideen für die eigene Studie sammeln. In dieser Phase gilt es kritisch zu bewerten, wie die berichteten Ergebnisse zustande kommen und wie zutreffend sie sind. Noch öfter als bei eigenen Ergebnissen wird man es also mit der Güte von solchen zu tun haben, die schon von anderen veröffentlicht wurden. Hier ist die Interpretation oft schwierig. Wesentlich dazu trägt bei, dass häufig zentrale Angaben fehlen über Zeitpunkt der Erhebung, genaue Zusammensetzung der Teilnehmer, eingesetzte Methoden (z.B. der genauer Aufbau und die Gestaltung von Fragebögen oder der konkrete Wortlaut von Fragen) und genaue statistische Ergebnisse (z.B. werden oft nur Mittelwerte berichtet aber keine Angaben, wie viele Personen genau auf eine Frage geantwortet haben und wie sich die Ergebnisse verteilen).

Entwicklung des Forschungsdesigns
Ein gutes Forschungsdesign und ein sauberer Forschungsplan sind die Grundlage für brauchbare Daten, die den wissenschaftlichen Gütekriterien entsprechen. Wegen dieser herausragenden Bedeutung gibt es einen eigenen Fachtext zu Forschungsdesigns der Psychologie dazu auf der Website.

Datenerhebung
Datenerhebung erfolgt mit Verfahren wie psychologischen Tests, Beobachtungsmethoden (beispielsweise Webtracking oder Messung der Hirnaktivität) und Methoden der Befragung (etwa Fragebögen). Wissenschaftliche Gütekriterien sind allen voran entwickelt worden, um diese Verfahren der Messung und Datenerhebung zu bewerten. Typischerweise gibt es daher zu jedem psychologischen Test Angaben zu Reliabilität, Konstruktvalidität und Geltungsbereich (externe Validität).

Datenauswertung
Auch wenn vorher alles sauber gemacht wurde – Gütekriterien werden auch bei der Auswertung gefährdet und oft zerstört. Etwa indem ungeschulte Auswerter Beobachtungsdaten falsch codieren, Antworten auf Fragebögen falsch erfassen, Variablen in Datensätzen falsch codieren oder unzulässig verändern.

Interpretation der eigenen Daten
Sobald die eigenen Daten ausgewertet sind, folgt die Interpretation dieser Ergebnisse. Hier sollten alle Störeinflüsse und Begrenzungen der Daten erkannt und in ihren Konsequenzen richtig gedeutet werden. Etwa, ob es im Forschungsdesign systematische Störeinflüsse gab – beispielsweise, dass Mitarbeiter gemerkt haben, das ihr Verhalten beobachtet wird und es entsprechend verändert haben. Oder, ob während der Datenerhebung falsche Stichproben, Teilnahmeverweigerung von Teilnehmern oder Interviewereinflüsse die Datenqualität beeinträchtigt haben.

Kommunikation von Forschungsergebnissen
Die Kommunikation von Forschungsergebnissen sollte zwar allgemeinverständlich erfolgen, muss aber immer ein nachvollziehbares und naturgetreues Abbild der eigenen Interpretation sein. Ergebnisse sollten so kommuniziert werden, dass auch andere Personen eine eigene Interpretation durchführen können. Das ist leider oft nicht der Fall: So besteht bei Mitarbeiterbefragungen und Marktstudien Interesse bei einzelnen Akteuren (etwa verantwortlichen Führungskräften oder Mitgliedern des Betriebsrats) Ergebnisse in die eine oder andere Richtung zu verzerren. Beispiel: Eine große Werbeagentur möchte für ihre Kunden Daten zur Wirksamkeit verschiedener Sendeplätze von Fernsehwerbung. Um unterschiedliche Preise für verschiedene Formen zu rechtfertigen, hat die Agentur ein Interesse, nur Daten zu veröffentlichen, die dieses Ziel unterstützen und andere Daten zu verschweigen. Bei der Kommunikation eigener Forschungsergebnisse besteht in solchen Fällen immer die Gefahr einer Verzerrung durch äußere Einflussnahme. Es gilt also bei der Präsentation von Daten immer auch gerade nach dem zu fragen, was nicht kommuniziert wurde.

Was bedeuten die Ergebnisse tatsächlich für die Fragestellung, wie verlässlich sind die Daten und gibt es systematische Verzerrungen? Die zutreffende Bewertung und Interpretation von Ergebnissen ist vielleicht der anspruchsvollste Teil im gesamten Forschungsprozess. Mit diesem Schritt steht und fällt, ob auf die Ergebnisse richtig reagiert wird, und Maßnahmen erfolgreich sind.

Als nächstes folgt ein Kapitel zur Objektivität als Gütekriterium.