Donnerstag, 20 August 2015 14:21

Skalenstruktur

Für Skalen existieren wichtige Kriterien für eine optimale Operationalisierung der Forschungsfrage, also für die Entscheidung des Forschers welche Skala die beste Option hinsichtlich deren Art und Struktur darstellt. Für die Formulierung von Items (Antwortmöglichkeiten als Skalenpunkte) bestehen die gleichen Regeln wie für die Frageformulierung (siehe Schnell, Hill & Esser 2011 basierend auf Edwards 1957), also hinsichtlich Verständlichkeit, Eindeutigkeit, Dimensionalität u.a. wie zuvor beschrieben. Es müssen sich aber ferner grundlegende Fragen zur Skala (z.B. zur Skalenbreite, Verbalisierung, Ausgeglichenheit, Dimensionalität und Ausrichtung der Skala) gestellt werden. Diese folgen zugegebenermaßen häufig eher der Philosophie des Fragebogenkonstrukteurs. Denn eine genau passende Skala basierend auf den wissenschaftlichen Erkenntnissen existiert pauschal nicht, erst im Kontext zur Fragestellung kann häufig eine Entscheidung aufgrund der Vor- und Nachteile für die bestmögliche Alternative getroffen werden.

Anzahl an Skalenpunkten und Skalenbreite

Als Erstes müssen Sie sich für die Anzahl an Skalenpunkten zu Ihrer Frage entscheiden, also ob diese über eine ungerade oder gerade Anzahl sowie über wie viele Skalenpunkte insgesamt sie verfügen soll. Es gilt dabei je höher die Anzahl der Skalenpunkte desto so mehr kann der Befragte seine Antwort differenzieren. In der Regel sollten bei einer angehenden Intervallskala zwischen vier und sieben Skalenpunkte vorgegeben werden, wobei manchmal auch bis zu zehn Skalenpunkte eingesetzt werden. Zwar bietet eine höhere Anzahl auch mehr Variationen bei der Beantwortung der Frage an, so kann aber diese den Befragten auch die Auswahl entsprechend seiner Meinung erschweren, denn meiner Erfahrung nach sind diese längeren Skalen intuitiv schwerer zu erfassen. Aus diesem Grund würde ich keine Skalenbreite mit mehr als zehn Punkten empfehlen, weil ein Unterschied zwischen beispielsweise dem 18. und 19. Punkt kaum mehr wahrgenommen wird und daher auf den Befragten viel zu abstrakt und theoretisch wirkt. Während der Befragung wird dann von der Mehrheit der Probanden die volle Breite der Skala gar nicht genutzt, sondern es ist eine Ballung an Antworten an den Extremen der Skala zu erkennen, d.h. die Probanden „schauen“ vermehrt nur auf die Endpunkte und auf die zwei davorstehenden Punkte, um ihre Einschätzung einordnen zu können.
Anzahl an Skalenpunkten

Mit der Entscheidung für eine ungerade Anzahl gibt man als Forscher einen Skalenmittelpunkt vor, z.B. bei einer mit fünf Ausprägungen ist die Dritte dieser Mittelpunkt. Ist eine Skala zweidimensional (z.B. von „lehne ich ab“ bis „stimme ich zu“), dann wird diese Mitte als neutraler Punkt zwischen den beiden Richtungen (vergleichsweise wie ein Nullpunkt) identifiziert. Eine eindimensionale Skala dagegen lässt nur Antworten in eine Richtung (z.B. von keiner bis absoluter Zustimmung) zu, so dass sie eigentlich keinen neutralen Punkt impliziert, aber trotzdem nehmen die Befragten diesen mittlerer Punkt innerhalb der Skala als einen solchen wahr. Sie bieten dem Befragten somit die Möglichkeit, eine „unentschiedene“ Meinung äußern zu können. Leider zu häufig nutzen die Befragten diese Option, um einer Antwort auszuweichen, um sich persönlich gar nicht entscheiden zu müssen. Bei einer geraden Anzahl zwingt man den Befragten dagegen eine Tendenz zu entwickeln, also eine eigene Position zu beziehen. Nur gibt es real eben die Situation, dass der Befragte keine Meinung dazu hat, oder sich einfach für keine Tendenz entscheiden kann. Aber aufgrund der Skala wird keine neutrale Option zugelassen, was dann leider zu einer „wahllosen“ Falschangabe durch den Befragten führen kann, oder falls die Möglichkeit besteht zu einer Antwortverweigerung. Mit der Anfügung einer Art „Restkategorie“ an die Skala mit der Option „weiß nicht“ könnte man der Problematik der motivierten Falschangabe entgehen, aber ich persönlich empfehle deren Einsatz nicht gern. Einerseits bietet man den bequemeren Befragten wieder eine Möglichkeit der mangelnden Auseinandersetzung mit der Frage, andererseits gewöhnen sich alle Befragten während der Umfrage daran, dass eine ausweichende Antwort durchaus legitim ist, und somit wird diese im Laufe der Befragung immer häufiger auch genutzt, obwohl grundsätzlich eine Meinung zu den Fragen vorhanden oder möglich gewesen wäre. Beide vorliegenden Varianten haben also ihren Vorteile aber auch Nachteile, daher ist jeweils eine Entscheidung nicht leicht, aber allein Ihr Wissen darum kann für die Datenanalyse von Bedeutung sein. Bei den von mir entwickelten Fragebögen zwinge ich die Befragten zu einer Entscheidung, also ich persönlich nehme zumeist gerade Skalen mit sechs Punkten ohne ausweichende Option auf. Ich gehe dabei von der Philosophie aus, dass wir zu allem eine Meinung haben, auch wenn sie eher schwach ausgeprägt ist, und ich eine kognitive Auseinandersetzung beim Probanden provozieren möchte. Durch eine Zeitmessung während der Online-Umfrage erhalte ich zudem ein Indiz für die Solidität der Antwortangaben zu jedem Befragten. Benötigt ein Proband nur wenige Sekunden für das Beantworten einer Frage, hat er vermutlich wahllos oder aber in jedem Fall nicht adäquat auf die Fragestellung geantwortet, und ich kann dessen Antworten für die Auswertung unberücksichtigt lassen. Interessant aber konträr gegenüber meiner Philosophie der Fragebogenkonstruktion ist, dass im angloamerikanischen Raum gern bei jeder Frage die Option „weiß nicht“ angeboten wird, aber nur um diese Befragten dann als unqualifiziert zu identifizieren, und entweder die Umfrage für sie vorzeitig zu beenden oder diejenigen später, vor der Datenanalyse aus dem Datensatz zu entfernen.

Verbalisierung der Skalenpunkte

Es stellt sich nun die Frage sollen alle Skalenpunkte oder nur die Endpunkte verbalisiert werden. In der Praxis wird eine vierstufige Skala beispielsweise zur Zustimmung gern (mit „stimme voll und ganz zu“, „stimme eher zu“, „stimme eher nicht zu“, „stimme überhaupt nicht zu“) verbalisiert. Dem Befragten soll damit der „Wert“ der jeweiligen Skalenpunkte eindeutig vermittelt werden. Es dient in jedem Fall dem Befragten für ein einfacheres Verständnis der Skala. Und weil die Skala zu diesen Fragen meistens eine Rangordnung aufweist, beschränken sie kaum die Anwendung von Analyseverfahren während der Datenauswertung.
Verbalisierung von Skalenpunkten

Bei einer höheren Anzahl an Skalenpunkten wird die angemessene Beschriftung der einzelnen Punkte aber schon schwieriger, um noch eine allgemein verständliche Rangordnung der Skala zu vermitteln. Und bei ungeraden Skalen wird die Benennung des mittleren Skalenpunkt nie vollends glücken, es wird sich häufig mit Begriffen wie „weder noch“, „teils/teils“ oder „sowohl als auch“ beholfen. Von einer Nutzung der ausweichenden Optionen als Mittelpunktbeschriftung (wie „weiß nicht“ oder „keine Meinung“) ist vollständig abzuraten, weil es den ordinalen Charakter der Skala zerstört, da die Rangordnung verloren geht. Aus diesem Grund empfiehlt es sich nur die Endpunkte der Skala mit den Extremen zu benennen. Damit überlässt man aber den Befragten die Bedeutung der Punkte dazwischen zu definieren, was natürlich nicht jeder gleichermaßen macht. Aus diesem Grund empfehle ich nur kurze Skalen mit drei oder vier Punkten zu verbalisieren. Bei längeren Skalen empfiehlt sich dagegen nur die Endpunkte zu beschreiben, aber dann die Skala auch nicht zu breit zu gestalten, eher nur mit bis zu sieben Punkten zu definieren, um die Vielfalt an Interpretationen zur Skala seitens der Befragten geringer zu halten.

Zum Abschluss muss man sich noch für eine Richtung der Skala entscheiden, d.h. ob der niedrigste Skalenwert links und der Höchste am rechten Ende stehen soll (oder eben andersherum). In unserem Kulturkreis denken wir intuitiv von links nach rechts, daher empfiehlt sich auch eine Skala von links nach rechts (von niedrigen nach hohen Skalenwerten, von schlechten nach guten Wertungen). Nur bei mündlich vorzulesenden Fragebögen kann es manchmal Sinn machen, die Skala andersherum zu präsentieren, weil es eher dem Verständnis von gesprochener Sprache entspricht, zuerst mit dem positiven Aspekt zu beginnen.

Eine mögliche, optimale Skala

Eine eindeutige Empfehlung für die optimale Skala konnte ich Ihnen leider nicht geben, aber meiner Erfahrung nach hat sich eher eine vierstufige, verbalisierte Skala oder eine sechsstufige Skala mit Benennung der Endpunkte ohne Mittelpunkt von links nach rechts ausgerichtet in der Praxis bewährt. Trotzdem erscheint manchmal auch der Einsatz eines Skalenmittelpunkts oder einer „weiß nicht“ Option abhängig von der Frage und Thema sogar notwendig. Ich will damit keinen Skalentyp grundlegend ablehnen.
Das Wichtigste dabei ist, dass der von Ihnen entwickelte Skalentyp im Fragebogen fort während eingesetzt wird. Denn ein häufiger Wechsel der Skalen innerhalb eines Fragebogens verwirrt den Befragten und führt im Laufe der Umfrage zu unabsichtlichen Fehlantworten, weil während der Befragung ein Lernen hinsichtlich der Skalentypen stattfindet, also der Proband deren Funktion verstanden hat und nun unterstellt, dass das Prinzip beibehalten wird. Trotzdem kann man häufig nicht alle Fragen mit der gleichen Skala abdecken, daher ist eine zweite oder auch dritte Variante legitim, aber versuchen sie diese so ähnlich wie möglich zu halten.

Besonderheiten bei mündlichen Befragungen und Rotationen

Bei mündlichen Befragungen (z.B. per Telefon) können Skalen mit mehreren bis vielen Ausprägungen die Assoziationsfähigkeit des Probanden überfordern. Denn die Befragten müssen sich die durch den Interviewer nur vorgelesene Skala auch merken können, wohingegen sie sich die Skala bei einer schriftlichen Umfrage immer wieder ansehen können, wenn sie in Vergessenheit geraten ist. Aus diesem Grund werden grundsätzlich eher kurze und einfache Fragen und Skalen bei mündlichen Befragungen empfohlen. Der Einsatz von Ziffern zu den Skalenpunkten soll dabei das Antwortverhalten erleichtern, aber eine regelmäßige Wiederholung der Definitionen zur Skala ist trotzdem notwendig. Bei der Nennung von mehreren Antwortalternativen innerhalb einer Frage besteht grundsätzlich die Tendenz beim Befragten auf die später aufgeführten Angaben (recency-effect) auszuweichen. In Online-Umfragen herrscht seitens der Probanden, ähnlich wie bei schriftlichen Befragung, dagegen eine Antworttendenz zu früher aufgeführten Angaben (primacy-effect). Aus diesem Grund ist eine automatische Rotation von Items (und sogar auch Fragen) mittels Zufallsgenerator bei computergestützten Umfragen sehr wichtig, wie auch eine zufällige Anordnung der Items innerhalb einer Batterie (ein Set an Aussagen zur Bewertung) realisierbar sein sollte. Bei mündlichen Umfragen ohne Computerunterstützung wird dafür ein Aufteilen der Frage in eine Haupt- und in eine differenzierende Folgefrage empfohlen. Dabei sollte die Hauptfrage dichotom skaliert sein, und erst die Folgefrage den Grad bzw. das Ausmaß der Antwort (z.B. der Zustimmung oder Ablehnung) messen. Generell ist bei mündlichen Umfragen der Einsatz von allgemeingültigen Hilfsmitteln ratsamer, wie z.B. die Anwendung von Schulnoten als Skala.

Donnerstag, 20 August 2015 14:18

Skalentypen

Zu jeder Frage gehören natürlich auch die dazugehörigen Antwortmöglichkeiten, die man als Skala bezeichnet, weil mit deren Beantwortung der Prozess des Messens stattfindet. Bei der Entwicklung von Skalen existieren sozialwissenschaftliche Standards (siehe Schnell, Hill & Esser 2011 basierend auf Stevens 1946), womit verschiedene Skalenniveaus definiert worden sind, die als standardisiertes Instrument zur Datenerhebung per Fragebogen dienen. Diese Skalenniveaus werden unterschieden nach Nominal-, Ordinal-, Intervall- und Ratioskala.

Bei einer Nominalskala wird jede Antwortmöglichkeit genau einem sich gegenseitig ausschließenden Skalenpunkt zugeordnet, so dass der Proband keine überschneidenden Antworten vorfinden darf, sondern die Items (Antwortmöglichkeit als Ausprägung der Skala) unabhängig von einander bestehen, also entweder das eine oder das andere zutrifft, wie z.B. bei der Frage zum Geschlecht des Befragten.
Die einfachste Nominalskala ist eine dichotome, mit den beiden Antwortmöglichkeiten „Ja“ oder „Nein“, aber Nominalskalen können natürlich auch mehrere Ausprägungen aufweisen. Inhaltlich werden die meisten Wissen-, Verhaltens- oder Nutzungsfragen als Nominalskala umgesetzt. Beispielsweise eine Frage zum Besitz von Produkten im Haushalt mündet in eine lange Liste mit von einander unabhängigen Produkten, die der Befragte nur entweder besitzen kann oder nicht. Aber auch viele Fragen zu den Eigenschaften der Befragten (z.B. soziodemographische Merkmale) können nur als Nominalskala operationalisiert werden, weil beispielsweise bei der Frage zum Familienstand sich deren möglichen Antworten wahrhaftig untereinander ausschließen.

Bei einer Ordinalskala müssen die Antworten sich ebenfalls wie zuvor gegenseitig ausschließen und unabhängig voneinander sein, aber diesmal unterliegen die Antwortmöglichkeiten einer Rangordnung, d.h. die Ausprägungen stehen in einer relationalen, ranggeordneten Beziehung zueinander. Zum Beispiel eine Bewertungsskala per Schulnoten impliziert eine Rangordnung, indem ein „sehr gut (1)“ eine bessere Schulnote als ein „gut (2)“ darstellt, aber eine Schulnote „gut (2)“ nicht doppelt so gut wie ein „ausreichend (4)“ ist. Inhaltlich werden häufig Fragen nach den Überzeugungen oder Wertorientierungen der Befragten als Ordinalskala realisiert, weil eine Rangordnung dabei stärker das Maß an Überzeugungen oder Werten beim Probanden zum Ausdruck bringen kann.
Nominalskala und Ordinalskala

Metrische Skalen

Eine Intervallskala muss zusätzlich das Kriterium erfüllen, dass die Abstände zwischen den Skalenpunkten genau gleich sind. In der Praxis existieren aber nur sehr wenige Situationen, wo sich eine Intervallskala zur Messung einer lebensnahen Situation einsetzen lassen würde. Für eine Vielzahl von Auswertungsverfahren ist aber deren Einsatz eine Grundvoraussetzung für tiefer gehende Analysen, denn als Forscher ist es sehr lehrreich beispielsweise etwas als doppelt so wertvoll oder effektvoll bezeichnen zu können. Aus diesem Grund sollte man häufig bereits bei der Fragebogenentwicklung entsprechende Fragen mit Intervallskalen als Antworten entwickeln. Es hat sich etabliert, nur Ziffern als Skalenpunkte vorzugeben, so dass der Befragte beispielsweise zwischen den Zahlen von 1 bis 6 wählen soll. Es müssen dann nur die Endpunkte definiert werden, indem z.B. die 1 für „überhaupt nicht“ und die 6 für „voll und ganz“ steht, und der Proband entsprechend seiner Meinung dazwischen abstufen kann. Das ist natürlich eine künstlich produzierte Intervallskala, indem dem Befragten mittels Zahlen suggeriert werden soll, das die Abstände zwischen diesen Skalenpunkten gleich sind. Leider interpretiert nicht jeder Proband dieses gleichermaßen so, aber ich empfehle diese Technik trotzdem, weil bisher leider keine bessere Alternative entwickelt worden ist.
Intervallskala

Eine Ratioskala (oder auch Verhältnisskala genannt) ist eine Intervallskala mit einem natürlichen Nullpunkt, also der tatsächlichen Abwesenheit des zu messenden Merkmals. Zum Beispiel ist das Längenmaß eine typische Ratioskala, indem die Körpergröße in Zentimeter gemessen wird, aber wenn der Messwert „Null“ erreicht, das Objekt gar nicht da bzw. nicht existent ist. In der Praxis können Ratioskalen beispielsweise für die Erfassung von Angaben hinsichtlich des Einkommens, der Anzahl an Kindern im Haushalt oder auch für Nutzungszeiten eingesetzt werden, wo eine Antwort „Null“ jeweils deren Abwesenheit oder auch „Nicht-Existenz“ bedeutet, also kein Einkommen, keine Kinder im Haushalt oder keine Nutzung durch den Befragten. Inhaltlich werden diese beiden metrischen Skalen häufig für Fragen nach Einstellungen oder Meinungen von Befragten verwandt.
Ratioskala

Erst metrische Skalen ermöglichen die Erfassung einer differenzierten Meinung oder Einstellung des Befragten. Die Skala ermöglicht dabei eine Varianz an Antworten bezüglich der eigenen Position des Probanden zu bestimmten vorgegeben Themen, also geht weit über eine dichotome Skala mit Ja-Nein Optionen hinaus, denn sie misst sogar die Intensität beispielsweise an Zustimmung oder Ablehnung zu einer Frage. Für den Forscher bietet sich mit diesen variierenden Antworten ein differenzierteres Ergebnis bezüglich der Fragestellung.