13. Skalen aus mehreren einzelnen Fragen: Multi-Item-Skalen

Insbesondere in der Wissenschaft aber auch in der Praxis werden Konstrukte wie Kundenzufriedenheit, Kundenvertrauen, Kundenbindung oder Markenimage meist nicht mit einzelnen Fragen gemessen. Man verwendet validierte Batterien aus Fragen, die alle ein latentes Konstruktmessen sollen.

Solche Skalen nennt man Multi-Item-Skalen.

Was spricht für die Verwendung von Multi-Item-Skalen?

  • Einzelne Fragen können oft nicht das gesamte Spektrum eines Konstruktes abgreifen.
    So besteht etwa Vertrauen laut den meisten empirischen Studien aus drei Komponenten:
    Kompetenzwahrnehmung (das Unternehmen ist kompetent zu leisten, was es verspricht), Integritätswahrnehmung (das Unternehmen hält sein Wort), Benevolenzwahrnehmung (die Bedürfnisse und der Nutzen der Kunden liegen dem Unternehmen wirklich am Herzen).
  • Mit mehreren Fragen wird die Messung genauer.
    Mehrere Fragen zu einem Konstrukt erhöhen die Reliabilität der Messung.
    Soll etwas genau erhoben werden, ist daher oftmals besser Multi-Item-Skalen anstatt einzelner Fragen zu verwenden.
  • Anhand statistischer Analysen kann festgestellt werden, aus welchen Subdimensionen ein Konstrukt besteht.
    Das kann wichtige Hinweise zur Beeinflussung des Konstruktes mit geeigneten Maßnahmen geben.

Nachteil im Vergleich zu einzelnen Fragen ist natürlich der größere Aufwand bei Befragung und Datenauswertung.

Meist wird man bei gründlicher Recherche (z.B. in wissenschaftlichen Journals) vorhandene und bewährte Skalen finden, die frei verwendbar sind.
Diese Skalen kann man direkt übernehmen oder anpassen.
Sind keine zufriedenstellenden Skalen vorhanden, kann auch selbst eine Skala konstruiert werden.
Dies ist das große Feld der psychometrischen Testkonstruktion, das hier nur kurz angerissen wird.

Wie kann eine Multi-Item-Skala entwickelt werden?

Die Entwicklung einer Multi-Item-Skala gliedert sich in mehrere Schritte.

  • Zuerst geht es darum, einen möglichst umfassenden Ausgangspool an Fragen zu entwickeln, der das zu erhebende Konstrukt abdeckt (Inhaltsvalidität).
    Hier sollten drei Quellen genutzt werden: Theorie, vorhandene Veröffentlichungen und Studien sowie Qualitative Forschung mit der Zielgruppe.
  • In einem nächsten Schritt werden Fragen sorgfältig (ggf. von mehreren Bewertern) durchgegangen, Redundanzen herausgenommen und bessere Formulierungen gesucht. Resultat ist ein reduzierter Pool an Fragen.
  • Diesen Pool legt man in einer Konstruktionserhebung einer möglichst für den Einsatzbereich der Skala repräsentativen Stichprobe an Personen  zur Beantwortung vor.
  • Im nächsten Schritt erfolgt eine Itemauswahl anhand statistischer Indikatoren.
    Man wird sich ansehen:

    • Fehlende Werte bei Items sind schlecht, denn diese Items werden offenbar von vielen Personen nicht verstanden oder können aus anderen Gründen nicht beantwortet werden. Items mit vielen Missing Values sollten daher nicht in der Skala behalten werden.
    • Die Verteilung der Antworten sollte normal verteilt sein, mit den Mittelwerten eher auf der mittleren Kategorie.
      Stark von der Normalverteilung abweichende Antwortmuster, gar mehrgipflige Verteilungen sind nicht brauchbar.
    • Eine explorative Faktorenanalyse aller Items zeigt, ob es Subdimensionen gibt oder mehrere Konstrukte statt einem gemessen wurden.
      Gibt es hinweise auf Subdimensionen sollten diese explizit erhoben werden.
      Sind inhaltlich klar abgrenzbare Konstrukte miteinander gemischt, sollte die Multi-Item-Skala zu Gunsten von einem der Konstrukte entflochten werden. Die Items auf dem Faktor des anderen Konstruktes sollten entfernt werden.
    • Die Korrelation einzelner Items mit den anderen Items sollte hoch sein. Man verwendet hier die korrigierte Trennschärfe als Indikator.
      Items mit niedrigen korrigierten Trennschärfewerten (als Faustregel: raus, wenn unter 0,4) werden hier herausgenommen.
    • Kennwerte der Homogenität der Items in einer Multi-Item-Skala sind ein Indikator, ob die Items alle das Gleiche messen.
      Dieser Wert sollte möglichst hoch sein. In der Regel verwendet man hier Cronbachs Alpha, das über 0,7 besser noch über 0,8 liegen sollte
  • Validierung: Nach der Itemauswahl steht eine unvalidierte Multi-Item-Skala zur Verfügung.
    Diese wird in einer weiteren Erhebung an einer für den Geltungsbereich möglichst repräsentativen Stichprobe validiert.
    Hier betrachtet man erneut statistische Kennwerte der gesamten Skala und aller einzelnen Items. Falls erforderlich wird man auch hier wieder Items herausnehmen, ggf. sogar neue Items entwickeln müssen und die überarbeitete Multi-Item-Skala erneut validieren.
    Zur Validierung sind statistische Reliabilitätsmaße, Konstruktvalidität und Kriteriumsvalidität besonders wichtige Kriterien.
  • Ergebnis einer erfolgreichen Validierung ist die fertige Multi-Item-Skala.

Wie man sieht, ist der Konstruktionsprozess einer Multi-Item-Skala, wenn vernünftig ausgeführt, extrem aufwändig.
In so fern ist es in der Praxis und auch der Wissenschaft immer die erste Wahl, auf bereits bewährte diagnostische Instrumente zurückzugreifen.
Nur wenn es massive Gründe dafür gibt, wird man den Aufwand einer Neukonstruktion auf sich nehmen.