1. Zur Relevanz der Statistik
1.1. Beispiel 1: Die Wahrscheinlichkeit, krank zu sein, bei einer positiven Diagnose eines recht exakten Tests
- Beispiel Test:
• Bei vorliegender Krankheit, besitzt der Test eine 100% Genauigkeit
• Bei keiner vorliegender Krankheit, besitzt der Test eine 95.24% Genauigkeit
- Viele Menschen gehen dabei davon aus, dass bei einer solchen positiven Diagnose eine sehr hohe Wahrscheinlich-
keit besteht erkrankt zu sein → Tatsächliche Wahrscheinlichkeit bei positivem Testresultat erkrankt zu sein: 5%
• Fehleinschätzung der Menschen hängt mit den ursprünglich zur Verfügung gestellten Informationen zusammen
(0% und 4.8% Fehlerquoten)
- Angaben zur Genauigkeit eines Testverfahrens:
• Sensitivität:
o Wahrscheinlichkeit der Diagnose „krank“ unter der Bedingung „erkrankt“
o Anteil aller erkrankten Personen, die die richtige Diagnose erhalten; Betrachtet die Teilmenge der erkrankten
Personen
• Spezifität:
o Wahrscheinlichkeit der Diagnose „gesund“ unter der Bedingung „gesund“
o Anteil aller richtig diagnostizierten Personen unter den gesunden Personen; Betrachtet die Teilmenge der gesun-
den Personen
1.2. Beispiel 2: Nationale Herkunft und Schulversagen
- Ökologischer Fehlschluss: Fehlinterpretation beruhen auf aggregierten Daten → Daten wurden auf einer bestimm-
ten Ebene zusammengefasst (z.B. Länder-, Schul- oder Klassenebene)
- Beruht auf einer Studie von Robertson (1950)
• Basierend auf Daten einer Volkszählung von 1930 in den USA
• Berechneter Zusammenhang (von den 48-US-Bundesstaaten) zwischen der Quote an Immigranten (prozentualer
Anteil) und der Quote an Analphabeten
• Fehlinterpretation mit der Schlussfolge: höhere Wahrscheinlichkeit für Analphabetismus unter Immigranten →
Tatsächliche Quote der Analphabeten war bei Immigranten geringer als bei den in den USA geborenen Personen
- Fehlinterpretationen entstehen, wenn Zusammenhänge unzulässigerweise von einer Aggregationsebene auf eine
andere Aggregationsebene übertragen wird
1.3. Beispiel 3: Zulassung zum Studium in Abhängigkeit vom Geschlecht
- Simpson Paradox (Edward Simpson, 1951): Bei statistischen Analysen muss der Einfluss von Drittvariablen be-
rücksichtigt werden. Bestimmte Fragestellung erfordern eine Aufteilung der ursprünglichen Daten in einer bestimm-
ten Weise
• Bsp. Edward Simpson:
o Juristische/Politische Auseinandersetzung aufgrund einer „vermeintlich“ höheren Zulassungsquote für Männer
o Aufteilung bei der Zulassungsquote zum Graduiertenstudium nur nach männlich/weiblich betrachtet, statt die
Aufteilung in die einzelnen Fachbereiche zu berücksichtigen
o Vorwürfe der Diskriminierung nicht haltbar
1.4. Beispiel 4: Studiendauer und Einstiegsgehalt
- Fehlinterpretationen beim Betrachten vom Zusammenhang zweier Merkmale ohne Berücksichtigung des Einflusses
weiterer Merkmale
- Korrelation= gemeinsamer Einfluss zweier Merkmale auf ein Kriterium:
• Bsp. (Krämer, 2009): Vermeintlicher positiver Zusammenhang der Höhe des Einstiegsgehalts in Abhängigkeit zur
Studiendauer; Bei getrennter Betrachtung der einzelnen Studienfächer (BWL, Physik und Chemie) zeigt sich ein
negativer Zusammenhang
• Kriterium (Einstiegsgehalt) = Merkmal (Studiendauer) + Merkmal (Studienfach)
1
,2. Grundbegriffe und Aufgaben der Statistik
2.1. Daten
- Datenmatrix= enthält Ausprägungen der erhobenen Merkmale einer Person (o. anderen statistischen Einheit)
• Z.B. Geschlecht, Körpergewicht, IQ etc.
• Zeile in Datenmatrix: Werte aller erhobenen Variablen für bestimmte statistische Einheiten
• Spalte eine Datenmatrix: enthält die Werte einer Variablen für alle statistischen Einheiten; Reihenfolge der Vari-
ablen ist für jede statistische Einheit identisch
- Einheiten/Untersuchungseinheiten = statistische Einheiten = Merkmalsträger
• In der Psychologie häufig Personen; Auch Organisationen/Organisationseinheiten (z.B. Universitäten oder Fach-
bereiche); Statistische Einheiten können auch Zeitpunkte sein
- Merkmal= z.B. Geschlecht, Körpergewicht, IQ einer statistischen Einheit
• Variable= Ein Merkmal mit unterschiedlichen (mind. zwei) Ausprägungen
• Konstante= Ein Merkmal mit nur einer Ausprägung
- Merkmalsausprägungen = Variablenwerte = Ausprägungen = Werte
- Beobachtungen = an statistischen Einheiten erhobene Merkmalsausprägungen
2.2. Stichprobenziehung
- Population/Grundgesamtheit= bestimmte vorher definierte Menge statistischer Einheiten bei empirischen Studien
• Z.B.: Bewohner einer Stadt, Mitglieder einer Universität
- Vollerhebung= Bei einer kleinen Population können alle Mitglieder einer Population in eine Untersuchung einbe-
zogen werden
• Aus ökonomischen Gründen wenig sinnvoll (Aufwand, Menge an Daten)
- Stichprobe= Eine Auswahl der Mitglieder einer Population; Verschiedene Methoden zur Auswahl der Mitglieder
einer Stichprobe:
• Einfache Zufallsstichprobe= Jedes Mitglied der Population hat die gleiche Chance in die Stichprobe aufgenom-
men zu werden
• Geschichtete Zufallsstichprobe= Population wird in einzelne Schichten (Teilpopulationen) unterteilt → aus die-
sen Teilpopulationen werden einfache Zufallsstichproben gezogen
o Sinnvoll, wenn die einzelnen Teilpopulationen miteinander vergleichen sollen
• Quotenstichprobe= Stichprobe wird hinsichtlich der für die Fragestellung wichtigen Merkmale so zusammenge-
stellt, dass sie ein repräsentatives Abbild der Population darstellt
o Z.B.: Übereinstimmen der Stichprobe hinsichtlich der Merkmale Geschlecht, Alter, Bildung etc. mit der Popu-
lation; Häufig eingesetzt in Marktforschungen
o Die prozentualen Anteile der Kombination aus verschiedenen Merkmalen werden ermittelt und als Quote der
Stichprobe vorgegeben → Erheben so vieler statistische Einheiten bis die Quote erfüllt ist
• Convenience sampling= Einbezug solcher Mitglieder einer Population in die Stichprobe, die relativ einfach zu
erreichen sind
- Repräsentative Stichprobe= Daten der Stichprobe erlauben angemessene Aussagen über die zugrundeliegende
Population; Stichprobe soll für die relevanten Merkmale ein verkleinertes Abbild der Population darstellen
2.3. Deskriptive Statistik
- Deskriptive Statistik= Beschreibung einzelner oder mehrerer Variablen anhand von Tabellen, Grafiken und Koef-
fizienten
• Kennwerte/Maße für:
o Mittlere Ausprägung der Messwerte (z.B. Mittelwert)
o Unterschiedlichkeit bzw. Streuung einzelner Messwerte
- Univariate Statistik= separate Beschreibung einzelner Variablen
- Bivariate Statistik= gemeinsame Betrachtung zweier Variablen
• Für die gemeinsame Darstellung von zwei Variablen gibt es verschiedene grafische und tabellarische Darstel-
lungsformen; Reihe von Koeffizienten zur Erfassung des Grades des statistischen Zusammenhangs zweier Vari-
ablen
2
,- Einfache Regression (Verfahren der bivariaten Statistik): Eine Variable (abhängige Variable, AV) wird durch
eine andere Variable (unabhängige Variable, UV) erklärt und optimal vorhergesagt
• Klärung inwiefern Unterschiede in der abhängigen Variable auf Unterschiede in der unabhängigen Variable zu-
rückzuführen sind
- Lineare Modell= Eine abhängige Variable gleichzeitig durch mehrere unabhängige Variablen zu erklären bzw.
vorherzusagen; Erweiterung der einfachen Regression; Das lineare Modell ist ein Verfahren der multivariaten Sta-
tistik
• Ermittelt in welchem (prozentualem) Ausmaß sich die abhängige Variable durch die einzelnen unabhängigen Va-
riablen erklären bzw. vorhersagen lässt
2.4. Inferenzstatistik
- Inferenzstatistik= Generalisierung der Ergebnisse aus Stichproben auf die Population; Grundlegende Aufgabe der
Inferenzstatistik:
- Schätzung bestimmter Kenngrößen der Verteilung von Merkmalen in der Population (=Parameter); Prozentualer
Anteil der Population stellt dann den Parameter
• Punktschätzung= Schätzung des Parameters aufgrund der Stichprobendaten; Behaftet mit einer gewissen Unsi-
cherheit
• Vertrauensintervalle= Enthalten mit einer bestimmten (vorher festgelegten) Wahrscheinlichkeit die Parameter
- Hypothesentestung:
• Empirische Studien aufgebaut auf vorher aufgestellte Vermutungen bzw. Hypothesen, die es zu überprüfen gilt
• Statistische Testverfahren erlauben anschließend eine Entscheidung über Hypothesen zu treffen: Aufrechterhalten
oder Verwerfen der Gültigkeit einer Hypothese
• Wahrscheinlichkeitstheorie: Unabdingbare Voraussetzung für die Schätz- und Testverfahren
- Statistische Power: Zur Berechnung hinreichend großer Stichproben
3. Klassifikation von Daten
- Wichtiges Kriterium für die Verfahrens-Entscheidung: Informationsgehalt der zu analysierenden Variablen
- Bsp.: Geschlecht und Größe
• Größe:
o Kann anhand eines Zentimetermaßes eine bestimmte Zahl zugeordnet werden
o Unterschiedliche Größen (d.h. verschieden Merkmalsausprägungen) → unterschiedliche Zahlen
o Anhand dieser Zahlen: Größe in Rangfolge bringen, Differenz der Größe zweier Personen bilden
• Geschlecht:
o Besitzt lediglich die beiden Ausprägungen: männlich und weiblich
o Ausprägungen können mit Begriffen (männlich – m, weiblich – w) oder mit Symbolen (z.B. Zahlen: männlich –
1, weiblich – 2) bezeichnet werden
o Anhand der Zahlen können keine Rangreihen oder Unterschiede zwischen den beiden Zahlen interpretiert wer-
den
- Verschiedene Formen der Klassifikation von Variablen:
• Skalenniveau
• Quantitative und qualitative Variablen
• Diskrete und stetige Variablen
3.1. Das Skalenniveau einer Variablen
- Skala= Ergebnis einer Messung und basiert auf Messvorschrift zur Erhebung von Daten
- Skalenniveau= gibt Informationsgehalt eine Messung an
- Messung= (hierbei) gesamter Vorgang von Beobachtung empirischer Sachverhalte → Zuordnung von Symbolen
bzw. Zahlen zu den interessierenden Aspekten der empirischen Sachverhalte
- Skala (Sozial- und Erziehungswissenschaften) = Bereich der Werte einer Variable
- Informationsgehalt der Skalenniveaus (von höchstem zum niedrigsten):
• Ratioskalenniveau > Intervallskalenniveau > Ordinalskalenniveau > Nominalskalenniveau
3
, 3.1.1. Ratioskalenniveau
- Ratioskalierte Variablen haben den höchsten Informationsgehalt; Können fast ohne Einschränkungen für alle sta-
tistischen Kennzahlen und Verfahren verwendet werden
- Wesentliche Merkmale einer Ratioskala
• Für jeden Wert einer Ratioskala lässt sich bestimmen, wie häufig er in einer Stichprobe vorkommt
• Eine Ratioskala hat einen sinnvoll zu interpretierenden absoluten Nullpunkt
• Die Werte einer Ratioskala lassen sich der Größe nach ordnen
• Mit den Werten einer Ratioskala lassen sich sinnvoll Differenzen bilden
• Mit den Werten einer Ratioskala lassen sich sinnvoll Quotienten bilden
• Eine Ratioskala ist eindeutig bis auf Ähnlichkeitstransformationen der Form 𝑓(𝑥) = 𝑏 ∗ 𝑥 (mit b > 0)
• Merksatz: Die Ratioskala kann sich als ein Gummiband vorgestellt werden, das Striche und Zahlen für Messein-
heiten besitzt und an einem Ende an einem festen Punkt (dem Nullpunkt) befestigt ist
- Beispiele für ratioskalierte Variablen:
• Gewicht
• Geschwindigkeit
• Körpergröße
3.1.2. Intervallskalenniveau
- Intervallskalen haben den zweit höchsten Informationsgehalt
- Wesentliche Merkmale einer Intervallskala
• Für jeden Wert einer Intervallskala lässt sich bestimmen, wie häufig er in einer Stichprobe vorkommt
• Eine Intervallskala hat KEINEN sinnvoll zu interpretierenden absoluten Nullpunkt
• Mit den Werten einer Intervallskala lassen sich sinnvoll Differenzen bilden
• Mit den Werten einer Intervallskala lassen sich NICHT sinnvoll Quotienten bilden
• Eine Intervallskala ist eindeutig bis auf positive Transformationen der Form 𝑓(𝑥) = 𝑎 + 𝑏 ∗ 𝑥 (mit b > 0)
4