Czytaj książkę: «Der Fragebogen», strona 2

Czcionka:

1.2.2 Geschichtete Zufallsstichprobe

Eine weitere Möglichkeit wäre es, eine geschichtete (stratifizierte) Zufallsstichprobe zu ziehen. Dabei wird die Stichprobe anhand einer ausgewählten Schichtungsvariable in einander nicht überschneidende Schichten geteilt. Diese Schichten sollten in sich ziemlich homogen sein, untereinander aber sehr unterschiedlich. Aus diesen Segmenten zieht man dann eine Zufallsstichprobe. Diese Vorgangsweise macht natürlich nur dann Sinn, wenn die Schichtungsvariable einen hohen Zusammenhang mit dem eigentlich interessierenden Untersuchungsmerkmal hat. Man muss über die Verteilung der Merkmale in der Grundgesamtheit Bescheid wissen, um eine repräsentative Stichprobe erzeugen zu können. Die so gezogene Stichprobe wird als geschichtet oder stratifiziert bezeichnet (vgl. ebd., S. 88). Ein Beispiel: Wenn das Freizeitverhalten Jugendlicher untersucht werden soll, muss bei der Ziehung der Stichprobe auf Alter, Taschengeldhöhe, Stadt/Land, Geschlecht etc. geachtet werden. Aus diesen einzelnen Schichten (Strata; Sg. Stratum) werden dann zufällig Jugendliche gezogen, also aus der Gruppe Stadt/Land, der Gruppe Taschengeldhöhe usw.

Bei der stratifizierten Zufallsstichprobe muss bekannt sein, welche Faktoren die Verteilung des untersuchten Merkmals beeinflussen, um eine geeignete Auswahl treffen zu können.

1.2.3 Klumpenstichprobe (Cluster Sample)

In der praktischen Arbeit mit Daten kommt es immer wieder vor, dass vorgruppierte Teilmengen der Grundgesamtheit vorliegen. Man spricht in diesem Fall von sogenannten Klumpenstichproben, diese werden neben den geschichteten Stichproben ebenfalls den mehrstufigen Zufallsstichproben zugeordnet. Klumpenstichproben sind dann sinnvoll, wenn die Elemente der Grundgesamtheit nicht erfasst werden können, aber Informationen darüber vorhanden sind, wo diese Elemente gefunden werden können. Ein Beispiel: Es gibt keine Listen darüber, welche und wie viele Wiener PatientInnen an Bluthochdruck leiden. Aber Spitäler führen Aufzeichnungen über ihre eigenen PatientInnen, und so könnte man eine bestimmte Anzahl an Wiener Spitälern (das wären die „Klumpen“ oder „Cluster“) auswählen und aus diesen Clustern Zufallsstichproben von Bluthochdruck-PatientInnen ziehen.

„Eine Klumpenstichprobe besteht aus allen Untersuchungsteilnehmern, die sich in mehreren, zufällig ausgewählten Klumpen befinden“ (Bortz, 2010, S. 87).

Diese Klumpenstichproben müssen allerdings von Ad-hoc-Stichproben (anfallenden Stichproben) differenziert werden – es müssen mehrere zufällig ausgewählte Klumpen vollständig untersucht werden. Ad-hoc-Stichproben wären eine Schulklasse, eine Seminargruppe, Kranke auf einer Station im Krankenhaus. Bei diesen anfallenden Stichproben wird ohne spezielle Planung und ohne genaue Kenntnis der Merkmalsausprägungen in der Population vorgegangen.

Bei einer Klumpenstichprobe wird die Grundgesamtheit in einzelne, sich ähnelnde Klumpen (Homogenität der Klumpen) zerlegt. Daraus wird eine Zufallsstichprobe genommen, z. B. werden zuerst einzelne Schulklassen (Klumpen) aus allen Klassen (Grundgesamtheit) gezogen und dann die SchülerInnen daraus befragt.

Das Grundproblem liegt darin, dass die Gefahr der nicht hinreichend gegebenen Repräsentativität sehr hoch ist.

Zu berechnende Kenngrößen unterscheiden sich in Abhängigkeit von der Klumpenauswahl. Je homogener die Gruppen sind, desto größer die Schwankungen zwischen den Auswahlen.

1.2.4 Zufall versus willkürliche Auswahl

Dem Prinzip der Zufallsstichprobe steht die willkürliche Auswahl von Stichproben gegenüber. Dabei werden von der Befragerin/dem Befrager willkürliche Kategorien eingezogen. Wahrscheinlichkeiten darüber, ob ein bestimmtes Element in die Stichprobe aufgenommen wird, können dabei nicht angegeben werden.

Es geht um eine bewusste Auswahl. Beispiele hierzu sind:

▮ eine rein willkürliche Auswahl – ein sehr unwissenschaftlicher Zugang, z. B. Befragungen auf der Straße, bei denen jeder zehnte Passant angesprochen wird;

▮ eine Schneeballauswahl – diese wird häufig als Methode für den Zugang zu kleinen bzw. schwer zugänglichen Gruppen genutzt. Eine Person dieser Gruppe gibt das Erhebungsinstrument (z.B. Fragebogen) an eine von ihr als relevant eingeschätzte Person weiter.

▮ eine Auswahl der Elemente, die als sehr typisch angesehen werden;

▮ eine Quotenauswahl – vorausgehende Festlegung der Gruppen, die gezogen werden müssen. Das setzt voraus, dass über die diesbezüglichen Informationen verfügt wird.

1.2.5 Abhängigkeit der Stichproben

Ein sehr wesentlicher Punkt, falls es zu Gruppenvergleichen mittels analytisch-statistischer Verfahren kommen soll, ist die Frage nach der Abhängigkeit der Stichproben. Dabei muss die abhängige von der unabhängigen Stichprobe unterschieden werden:

▮ Abhängige Stichproben: Typisch für abhängige Stichproben ist das zwei- oder mehrmalige Untersuchen derselben Personen, also beispielsweise vor und nach einem Therapieprogramm. Bei einer Befragung derselben Personen zu zwei Zeitpunkten muss etwa durch entsprechende Probandencodes sichergestellt werden, dass die zweiten Messwerte eindeutig den ersten zugeordnet werden können.

▮ Unabhängige Stichproben: Die Stichproben bestehen aus Elementen, die voneinander unabhängig sind, d. h., wer zur Stichprobe A gehört, kann nicht Teil der Stichprobe B sein. Typisch für ein unabhängiges Design wäre die Befragung von männlichen und weiblichen SchülerInnen zu einem bestimmten Thema, um mögliche Geschlechtsunterschiede zu untersuchen. Wer männlich ist, kann nicht Teil der weiblichen Stichprobe sein und umgekehrt.

1.3 Schluss von der Stichprobe auf die Grundgesamtheit

Die analytische Statistik (Inferenzstatistik) beschäftigt sich also mit dem Schluss von der Stichprobe auf die Grundgesamtheit. Wie bereits mehrfach erwähnt, ist es in den allermeisten Fällen allein schon aus organisatorischen Gründen nicht möglich, die gesamte Population (Grundgesamtheit) zu untersuchen.

Dabei stellt sich aber ein gravierendes Problem: Wie kann man etwas über eine Population aussagen, wenn nur Stichprobenresultate bekannt sind? Derartige Schlüsse sind nicht mit absoluter Sicherheit möglich, sondern nur als Wahrscheinlichkeitsaussagen formulierbar, was wir schon bei unserem Beispiel der Hochrechnung von Wahlen festgehalten haben.

Bei Wahlprognosen finden wir solche Unsicherheiten durch die Angabe eines Intervalls von zumeist „+/–2 %“: Auf die Partei X werden 38 % (+/–2 %) der Stimmen entfallen, womit ausgedrückt wird, dass mit einer bestimmten Wahrscheinlichkeit der „wahre“ Anteil der WählerInnen dieser Partei (also der Anteil der WählerInnen in der Population der Wahlberechtigten) hier im Bereich von 36 % bis 40 % liegt. Könnte man alle Wahlberechtigten befragen und nicht nur eine Stichprobe von zumeist rund tausend Personen, bräuchte man nicht die Wahrscheinlichkeit bemühen, sondern könnte eine „sichere“ Aussage treffen. Die Situation ist vergleichbar mit dem Schwangerschaftstest: Zu Beginn der Schwangerschaft ist es nicht möglich, zu sehen, ob eine Frau schwanger ist oder nicht. Aber mit 99,9 %iger Wahrscheinlichkeit ist sie es nicht, sollte das Testergebnis (dieses steht hier beispielhaft für die Stichprobe) negativ sein, und mit vergleichbarer Wahrscheinlichkeit ist sie schwanger bei positivem Testergebnis. Beim Schluss von einer Stichprobe auf die dahinterliegende Grundgesamtheit muss auch der Stichprobenumfang beachtet werden. Nach dem „Gesetz der großen Zahlen“ nähern sich die Eigenschaften einer Stichprobe mit wachsendem Umfang den Eigenschaften der Grundgesamtheit an. Für die praktische Arbeit muss jedoch eine handhabbare Lösung gefunden werden und oft können aus Zeitbzw. Kostengründen Stichprobenumfänge nicht in optimalem Umfang erhoben werden.

Eine verbindliche Untergrenze kann auch hier nicht in eine Zahl gefasst werden, da dies von einigen Komponenten, wie z. B. der Streuung der untersuchten Variable oder dem relativen Anteil der Stichprobe an der Gesamtpopulation, abhängig ist und individuell entschieden werden muss.

Für die Repräsentativität einer Stichprobe und die Anwendbarkeit der meisten Test- und Schätzverfahren der analytischen Statistik sollte jedoch ein Mindestumfang von 30 Fällen pro Untergruppe (Merkmalsausprägung einer Variable), z. B. Geschlecht mit männlich und weiblich, gegeben sein. Dies ist allerdings nur eine Faustregel, die die Verteilungen der Variablen nicht berücksichtigt.

1.4 Zusammenfassung des Kapitels

Grundsätzlich wird die Deskriptivstatistik von der Inferenzstatistik unterschieden. Deskriptiv heißt, in der Datenaufbereitung beschreibend vorzugehen. Die Darstellung der Ergebnisse erfolgt in Form von Grafiken, Tabellen und einzelnen statistischen Kennzahlen. Im Gegensatz dazu ermöglicht die Inferenzstatistik, über die bestehende Stichprobe hinaus Aussagen über die dahinterstehende Grundgesamtheit zu treffen. Es müssen dazu Hypothesen formuliert werden.

Als Stichprobe wird eine kleine Teilmenge der sogenannten Grundgesamtheit verstanden, die nach bestimmten Kriterien ausgewählt wird. Wir können dabei die einfache Zufallsstichprobe, die geschichtete Zufallsstichprobe, die Klumpenstichprobe und die Ad-hocStichprobe unterscheiden. Selbstverständlich kann eine Stichprobe auch willkürlich gezogen werden, dies wäre z. B. das Quotaverfahren. Diese kleine Teilmenge soll repräsentativ sein, d. h. die Grundgesamtheit in ihren Eigenschaften gut abbilden. Um dies zu gewährleisten, ist in der sozialwissenschaftlichen Untersuchungsplanung die häufigste Art der Stichprobe die Zufallsstichprobe, in ihr hat jedes Element der Grundgesamtheit die gleiche Wahrscheinlichkeit, ausgewählt zu werden.

Ein weiterer wesentlicher Aspekt ist die Differenzierung zwischen abhängigen und unabhängigen Stichproben, vor allem wenn mittels analytisch-statistischer Verfahren Gruppenvergleiche angestellt werden sollen.

Wird von der repräsentativen Stichprobe auf die Grundgesamtheit geschlossen, kann dies nur mit einer gewissen Wahrscheinlichkeit getan werden. Eine absolute Aussage wäre nur durch eine Vollerhebung möglich.

1.5 Übungsbeispiele

Überprüfen Sie Ihr Wissen und versuchen Sie, die fünf Übungsbeispiele zu lösen:

1. Was wird unter deskriptivstatistischen Methoden verstanden?

2. Worin liegt der wesentliche Unterschied zwischen deskriptiven und analytischen Methoden der Statistik?

3. Nennen Sie Ihnen bekannte Stichprobenarten.

4. Wann wird von einer abhängigen bzw. unabhängigen Stichprobe gesprochen?

5. Was wird unter einer repräsentativen Stichprobe verstanden?

Die Lösungen zu den Übungsbeispielen finden Sie im Anhang auf Seite 175.

2 Messung in den Sozialwissenschaften

Versuchen wir einen grundsätzlichen Zugang zur Thematik des Messens im sozialwissenschaftlichen Bereich zu finden und holen dazu inhaltlich ein wenig aus.

Eine bereits ältere Einteilung von Steyer und Eid (2001, S. 1) gliedert den Forschungsprozess in zwei Teile, einen theoretischen und einen empirischen. In der theoretischen Phase werden Fähigkeiten, Merkmale oder Eigenschaften strukturiert und definiert. Danach folgt die empirische Überprüfung einer Theorie, welche gegebenenfalls neu formuliert und wieder getestet werden muss (mehr dazu in Kapitel 3). Dazu ist es notwendig, die Theorie mit der Praxis zu verknüpfen und Messmodelle abzuleiten. Die Verknüpfung von Theorie und Praxis bezeichnen Steyer und Eid als „Überbrückungsproblem“ oder „Operationalisierung“ (Bühner, 2004, S. 69). Unter Operationalisierung wird also das Messbarmachen von Konstrukten (Begriffen) verstanden.

Aus den Naturwissenschaften kennen wir Messungen, die auf den ersten Blick als eindeutig und jederzeit wiederholbar erscheinen. Messungen etwa in der Psychologie sind für uns jedoch schwerer nachvollziehbar, da wir an ihrer Genauigkeit und Eindeutigkeit Zweifel hegen und vor allem die zu messenden Objekte andere Eigenschaften besitzen. Sie sind nicht wie in den Naturwissenschaften präzise mit Maßeinheiten und Messinstrumenten erfassbar. Dennoch werden in den Sozialwissenschaften ebenfalls Messmodelle abgeleitet und eingesetzt, mehr noch: Sie sind unverzichtbar.

Aus dieser Feststellung leitet sich eine wesentliche Frage ab, nämlich: Wie können empirische Größen, als Beispiel seien Intelligenz, Aggression, Stress, Ablehnung eines Themas, Zustimmung zu einem Thema etc. genannt, gemessen, also quantifiziert werden? Die Überführung dieser Konstrukte in Zahlen und messbare Größen erscheint auf den ersten Blick als nicht einfach und eindeutig. Die Ermittlung quantitativer Aussagen von physikalischen Größen erfolgt hingegen über festgelegte Maßeinheiten wie Kilogramm, Meter etc. Zur Quantifizierung empirischer (z. B. persönlicher) Merkmale gibt es keine Maßeinheiten. Deswegen muss mit einem Spezialfall der Messung gearbeitet werden – der Skalierung.

Grundsätzlich wird unter einer Skala ein Instrument zur Messung von (theoretischen) Konzepten, wie z. B. Intelligenz oder Einstellungen zu verschiedenen Themen (Arbeitsmotivation, Fremdenfeindlichkeit, Umweltbewusstsein ...), verstanden.

Ziel einer Skalenbildung ist die Zuordnung eines Skalenwerts zu einer Person hinsichtlich eines zu untersuchenden Konzepts oder Merkmals (z. B. Umweltbewusstsein, Geschlecht etc.). Solche Skalen werden innerhalb standardisierter Fragebogen auf unterschiedlichem Niveau vorgegeben.

Dieser Skalenmesswert soll zum Ausdruck bringen, wo sich die Personen mit ihren Einschätzungen auf den untersuchten Dimensionen befinden oder welcher Gruppe sie angehören. Diese Werte sind für die Berechnungen mithilfe von Statistikprogrammen wie SPSS unerlässlich.

Eine Messung ist nach Hatzinger (2009, S. 32) „die Zuordnung von Zahlen zu beobachtbaren Phänomenen. Die Beziehung zwischen beobachteten Phänomenen soll durch die Beziehungen zwischen den zugeordneten Zahlen widergespiegelt werden.“

Ein Beispiel soll dies veranschaulichen: Es bezieht sich auf den im Vorwort bereits erwähnten Übungsfragebogen „Fragebogen zur Studien- und Lebenssituation bei Studierenden der Ernährungswissenschaften im Jahr 2008“, den Sie im Anhang auf S. 188 finden können.

Dort findet man im Fragenkomplex C (zur Person) unter C1.1 die Frage (das Item):

Sie sind □ männlich □ weiblich?

Die befragten Personen müssen sich entsprechend ihrer Zugehörigkeit mit einem Kreuz einer der beiden Kategorien zuordnen. Um die Ergebnisse messbar zu machen, also Aussagen wie jene in Kapitel 1 (z. B. 70 Studierende sind männlich/57 Studierende sind weiblich) treffen zu können, müssen den Ausprägungen der Variablen „Geschlecht“ (männlich/weiblich) Zahlen zugeordnet werden, um danach eine Auszählung zu ermöglichen, dies nennt man auch Kodierung.

Nehmen wir an, dass es eine willkürliche Festlegung gibt, männlichen Personen die Zahl 1 zuzuordnen und weiblichen Personen die Zahl 2, also die Merkmalsausprägung „Mann“ mit 1 und „Frau“ mit 2 zu kodieren. Damit erfolgt eine Vergabe von Messwerten (1 oder 2) – sie könnten in diesem Fall übrigens auch umgekehrt vergeben werden, dazu im Folgenden Genaueres. Es ist somit eindeutig nachvollziehbar, welche Zahl welchem Geschlecht zugeordnet ist. Die empirische Größe „Geschlecht“ wurde durch diesen Vorgang messbar gemacht – eigentlich könnte man sehr vereinfacht ausdrücken, dass der Variablen ein Skalenniveau zugewiesen wurde.

Die hohe inhaltliche und praktische Relevanz dieses Vorgangs wird in Zusammenhang mit der Konstruktion eines Erhebungsinstruments (z. B. einer schriftlichen Befragung mittels standardisierten Fragebogens) deutlich, da zu diesem Zeitpunkt genau überlegt werden muss, welche Daten zur Interpretation der Testergebnisse benötigt werden, und im Vorfeld, welche Ausprägungen und somit Zahlen ihnen zugeordnet werden. Allgemeiner: Welche Ergebnisse möchte ich aus der Untersuchung beziehen? Kann ich sie mit meinen Vorgaben aus den gestellten Fragen filtern? (Siehe dazu Kapitel 4)

2.1 Skalenbzw. Messniveaus

Es lassen sich verschiedene Ebenen (Skalenniveaus) unterscheiden, auf denen gemessen werden kann. Es kommt je nach Skalenniveau zu einer unterschiedlich genauen Abbildung empirischer Sachverhalte. Jedes von ihnen hat bestimmte Eigenschaften und entscheidet über die möglichen mathematischen Operationen einer Variablen, die Transformationen ohne Informationsverlust und vor allem, welchen Informationsgehalt das entsprechende Merkmal liefert.

Die vier Skalenniveaus sind: Nominal-, Ordinal-, Intervall- und Verhältnisbzw. Absolutskala. Nominalbzw. ordinalskalierte Merkmale bezeichnet man als kategorial. Die Intervall-, Verhältnisbzw. Absolutskalen werden zur sogenannten Kardinalskala zusammengefasst. Merkmale auf diesen Skalen werden metrisch genannt.

Die Darstellung der Skalenarten erfolgt hierarchisch von der einfachsten, relativ ungenauen bis hin zur exaktesten Messstruktur, die vor allem im physikalisch-naturwissenschaftlichen Bereich Anwendung findet. In den Sozialwissenschaften ist sie eigentlich kaum anzutreffen.

Um zu den erforderlichen Definitionen einen Zugang zu finden, sollen vorweg zwei grundlegende Termini erörtert werden. Es handelt sich dabei um das empirische und numerische Relativ- oder Relationensystem. Bortz (2005, S. 16) verstehen unter einem empirischen Relativ „eine Menge von Objekten und eine oder mehrere Relationen, mit denen die Art der Beziehung der Objekte untereinander charakterisiert wird“. Besteht die Menge von Objekten aus empirischen Objekten, spricht man von einem empirischen Relativ (vgl. ebd.). Dies könnten z. B. Studierende einer Seminargruppe, KursteilnehmerInnen eines Kochkurses, SchülerInnen einer Klasse, aber auch verschiedenste vorhandene Augenfarben sein.

In der Folge wird die Zuordnung von Zahlen (Kodierung) zur Verarbeitung der Daten dargestellt. Es ist uns durchaus aus unserem Leben geläufig, Zahlenzuordnungen für Eigenschaften oder Ergebnisse zu treffen. Dies beginnt schon im Kindergarten mit der Zuordnung zu Gruppen und wird z. B. in der Schule mit den Schulstufen weitergeführt.

2.2 Nominalskala

„Eine Nominalskala ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass Objekte mit gleicher Merkmalsausprägung gleiche Zahlen und Objekte mit verschiedener Merkmalsausprägung verschiedene Zahlen erhalten“ (Bortz, 2005, S. 18).

Beispiele für Variablen und deren Zahlenzuordnungen (Kodierungen)

Geschlecht:	1 = weiblich
	2 = männlich
Familienstand:	1 = ledig
	2 = verheiratet
	3 = verwitwet
	4 = geschieden
RaucherIn:	1 = ja
	0 = nein
Sozialforschung ist	1 = stimme ich zu
langweilig:	2 = stimme ich nicht zu

Betrachten wir die Variable „Familienstand“: Die Zuordnung der Zahlen 1, 2, 3 und 4 zu den Ausprägungen „ledig“, „verheiratet“, „verwitwet“ und „geschieden“ ist völlig willkürlich und könnte auch anders gewählt werden. Keinesfalls soll ausgedrückt werden, dass ledige vor den geschiedenen Personen eingestuft werden, weil sie mehr Bedeutung (z. B. gesellschaftliche Akzeptanz) haben. Den Zahlen kommt keinerlei empirische Bedeutung zu. Die Ziffern drücken lediglich eine Ungleichheit bzw. Gleichheit aus.

Ebenso hat die Kategorisierung bei der Variablen „RaucherIn“ für die Zuordnung 1 oder 0 keinerlei empirische Relevanz. Eine Person, die nicht raucht (0), ist nicht „schlechter“ als eine Person, die raucht (1).

Die Zuordnung der Zahlen auf Nominalskalenniveau kennzeichnet unterschiedliche Qualitäten oder Kategorien einer Variablen. Dazu sind zwei Annahmen bei der Zuweisung von Zahlen zu treffen:

1. Exklusivität: Unterschiedlichen Ausprägungen einer Variablen (Merkmal) werden unterschiedliche Zahlen zugeordnet.

2. Exhaustivität: Für jede beobachtete oder potenziell bestehende Merkmalsausprägung existiert eine Zahl (vgl. Rasch & Kubinger, 2006, S. 9).

Nominalskalierte Variablen sind aufgrund ihres niedrigen Skalenniveaus in ihrer Auswertungsmöglichkeit sehr eingeschränkt. Statistische Operationen beschränken sich in der Regel darauf, für verschiedene Merkmalsausprägungen eine Häufigkeitsverteilung darzustellen. Deskriptivstatistische Methoden anderer Art, wie Darstellungen in Diagrammen, sind möglich. Dies wird in der Folge noch genauer demonstriert.

2.3 Ordinalskala

„Eine Ordinalskala ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass von jeweils 2 Objekten das Objekt mit der größeren Merkmalsausprägung die größere Zahl erhält“ (Bortz, 2005, S. 19).

Beispiele für Variablen und deren Zahlenzuordnungen (Kodierungen)

Rauchgewohnheiten:	1 = Nichtraucher
	2 = mäßiger Raucher
	3 = starker Raucher
	4 = sehr starker Raucher
Höchster Schulabschluss:
	1 = Hauptschule
	2 = Polytechnischer Lehrgang
	3 = Fachschule
	4 = Berufsbildende höhere Schule

Ein ganz typisches und auch sehr häufiges Beispiel einer ordinalskalierten Variablen ist die Kategorisierung der Altersklassen:

Wie alt sind Sie?	1 = bis 24 Jahre
	2 = 25 bis 34 Jahre
	3 = 35 bis 44 Jahre
	usw.

Diese Vorgangsweise ist bei der Variablen „Alter“ allerdings eher nicht empfehlenswert, da sie zu einer Reduktion des Informationsgehalts führt. Eine genaue Altersangabe in Jahren wäre sinnvoller, darauf wird noch näher eingegangen.

Wenn wir diese Variablen betrachten, kommt den vergebenen Kodezahlen (1–4) eine empirische Bedeutung zu – sie geben die Ordnungsrelation wieder. Die Variable ist nach ihrer Wertigkeit aufsteigend geordnet: Ein mäßiger Raucher raucht weniger als ein starker Raucher, und der wiederum weniger als ein sehr starker Raucher, wobei über die Differenzen keine Angaben vorliegen.

Variablen, bei denen der verwendeten Kodezahl eine empirische Relevanz hinsichtlich ihrer Ordnung zukommt, nennt man ordinalskaliert, d. h. beispielsweise je größer die Zahl, desto höher die Ausprägung des Merkmals.

Die empirische Relevanz dieser Variablen bezieht sich aber nicht auf die Differenz zweier Kodezahlen. Die Differenz zwischen den Kodezahlen eines Nichtrauchers und eines mäßigen Rauchers einerseits und eines mäßigen Rauchers und eines starken Rauchers andererseits ist jeweils 1, allerdings wird man keinerlei Aussage darüber treffen können, dass dieser Unterschied zwischen einem Nichtraucher und einem mäßigen Raucher einerseits und zwischen einem mäßigen Raucher und einem starken Raucher andererseits gleich ist. Dazu sind die Begrifflichkeiten zu vage und eben in Kategorien gefasst.

Das Wesen ordinalskalierter Daten liegt darin, dass sie vergleichende Aussagen über größer/kleiner oder besser/schlechter und gleich/ungleich zulassen.

Die Ordinalskala inkludiert die Aussagen der Nominalskala (Ungleichheit oder Gleichheit). Zu den erwähnten Annahmen der Exklusivität und Exhaustivität kommt eine weitere hinzu, welche die Eigenart der Ordinalskala kennzeichnet. Es ist dies die Bedingung, dass 3. die gewählten Zahlen Unterschiede einer bestimmten Größe in Bezug auf die Merkmalsausprägungen darstellen (vgl. Rasch & Kubinger, 2006, S. 10).

Neben Häufigkeitsdarstellungen ist auch die Berechnung gewisser statistischer Kennwerte wie etwa des Medians (siehe Kapitel 6.3) möglich. Die Berechnung von Mittelwerten kann in bestimmten Fällen Sinn machen. Auf die Berechnung von Zusammenhängen (Korrelationen) mit anderen Variablen und deren Bedingungen wird später eingegangen (siehe Kapitel 9).

2.4 Intervallskala

Eine Intervallskala ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass die Rangordnung der Zahlendifferenzen zwischen je 2 Objekten der Rangordnung der Merkmalsunterschiede zwischen je 2 Objekten entspricht“ (Bortz, 2005, S. 21).

Beispiele für Variablen

Intelligenzquotient: IQ 110; IQ 120; IQ 130; hier ist der Unterschied zwischen IQ 110 und IQ 120 ebenso groß wie zwischen IQ 120 und IQ 130 – es sind immer 10 IQ-Punkte.

Temperaturmessung in Grad Celsius: 20 Grad Celsius; 30 Grad Celsius; 40 Grad Celsius; hier gilt dieselbe Zugangsweise – die Abstände sind gleich. Man spricht auch von äquidistanten Abständen.

In diesen Fällen kommt es bei der Eingabe in SPSS nicht zur Zuordnung von Kodezahlen, sondern es werden die einzelnen Werte (z. B. 110, 120, 130) verarbeitet. Diese Vorgangsweise wird bei allen metrischen (intervall- und verhältnisskalierten) Variablen gewählt.

Die oben genannten Werte geben nicht nur eine Rangordnung der beteiligten Personen wieder, sondern der Differenz von zwei Werten kommt auch eine empirische Bedeutung zu. Der Abstand der Zahlen bildet immer den gleichen Qualitätsunterschied in der Merkmalsausprägung ab.

Ein Beispiel hierzu: Wenn Person A einen IQ von 80, Person B einen von 120 und Person C einen von 160 hat, so kann man sagen, dass Person B im Vergleich zu Person A ebenso viel intelligenter ist wie Person C im Vergleich zu Person B, nämlich um 40 IQ-Punkte.

Aber trotz der Werte 80 für Person A und 160 für Person C kann man aufgrund der Konstruktion des IQs nicht sagen, dass Person C doppelt so intelligent wie Person A ist. Das kann damit begründet werden, dass der Bezugspunkt – der absolute Nullpunkt – fehlt.

Rein theoretisch gibt es den Punkt-0-IQ, nur ist er in der Natur nicht auffindbar und auch in der Konstruktion des Intelligenzquotienten nicht umgesetzt. Er ist willkürlich festgelegt, wie auch die Abstände zwischen den IQ-Punkten festgelegt sind.

Variablen, bei denen der Differenz (dem Intervall) zwischen zwei Werten eine empirische Bedeutung zukommt, nennt man intervallskaliert. Die Intervallskala wird in den empirischen Sozialwissenschaften angestrebt und ist sicherlich die am häufigsten verwendete Skala. Oft wird sie auch dadurch erzeugt, dass eigentliche Ordinalskalen durch die Erhöhung der Kategorien der Antwortformate zur Intervallskala werden, was methodisch nicht korrekt, aber leider gängige Praxis ist.

„Daten, die Differenzbildung (A – B = C – D), Relationen (größer/kleiner oder besser/ schlechter) und Aussagen über Unterschiede (Gleichheit/Ungleichheit) zulassen, haben Intervallskalenniveau“ (Bühner, 2004, S. 70). Zu den genannten Annahmen kommt nun eine vierte hinzu: „Gleich große Abstände zwischen zugeordneten Zahlen repräsentieren gleich große Einheiten des Konstrukts“ (Rasch & Kubinger, 2006, S. 11). Hier wird auf die bereits erwähnte Äquidistanz hingewiesen. Es werden gleich große Abstände zwischen den Einheiten angenommen.

Die Differenzierung von Ordinalzu Intervallskala ist oft strittig und fließend. Ein Beispiel sind die Noten von 1–5, die man als eindeutig ansieht. Wenn sie jedoch auch auf die dahinterliegende Punkteanzahl bezogen werden, könnte man ihnen sehr wohl Intervallskalenniveau zusprechen (d. h., wenn Sehr gut = 60–55 Punkte, Gut = 54–49 Punkte etc.). Der Fall liegt selbst bei Angaben gewisser Anzahlen etwas im Graubereich, z. B. bei der Anzahl von Kindern – dieser Variablen kann ebenfalls Intervallskalenniveau zugesprochen werden, wenn keine Kategorien gebildet wurden (vgl. Zöfel, 2003, S. 22).

Die statistische Bearbeitung intervallskalierter Variablen unterliegt keinerlei Einschränkungen. So ist die Berechnung des arithmetischen Mittels mit dem dazugehörenden Streuungsmaß der Varianz bzw. Standardabweichung eine statistisch sinnvolle Operation zur Beschreibung der Variablen. Das ist auch der Grund, warum sie angestrebt wird. Dazu aber in Folge noch mehr.

2.5 Verhältnisskala

„Eine Verhältnisskala ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass das Verhältnis zwischen jeweils 2 Zahlen dem Verhältnis der Merkmalsausprägungen der jeweiligen Objekte entspricht“ (Bortz, 2005, S. 22).

Beispiele für Variablen

Wie alt sind Sie? _______ Jahre

Geben Sie Ihr Körpergewicht in Kilogramm an: _______ kg

Die höchste Stufe der Skalierung ist erreicht, wenn auch den Verhältnissen zweier Werte empirische Bedeutung zukommt.

Ein Beispiel wäre das Alter: Ist Max 30 Jahre und Moritz 60 alt, dann ist Moritz doppelt so alt. Man nennt solche Variablen verhältnisskaliert. Es sind dies intervallskalierte Variablen, die einen absoluten Nullpunkt besitzen und somit diese Aussagen zulassen.

In der Praxis ist die Unterscheidung von intervall- und verhältnisskalierten Variablen in der Regel nicht relevant, da ab Intervallskalenniveau wesentliche statistische Operationen durchgeführt werden können und das Verhältnisskalenniveau in der empirischen Sozialforschung selten anzutreffen ist. Beide Skalenniveaus werden in SPSS zum sogenannten „metrischen Niveau“ zusammengeführt.