Statistische Grundbegriffe & Skaleniveaus
1. Statistische Einheit (Erhebungseinheiten/ Merkmalsträger):
potenziell relevante Objekte, die zur Auswahl stehen, (z.B. Vorauswahl von 4 Paar Schuhe im Laden
2. Grundgesamtheit(Population/Statistische Masse ): Menge aller Statistischen Einheiten, (in
diesem Beispiel alle Schuhe im Laden, alternativ: Alle Schuhe die es gibt.)
-> Abgrenzung: Räumlich/ Zeitlich/ sachlich!
• Voll/Total-Erhebung: Grundgesamtheit vollständig erfasst (gesamte Population)
• Teilerhebung: Bruchteil der Grundgesamtheit betrachtet (Teilpopulation)
-> zufällige Auswahl aus der Grundgesamtheit (= Stichprobe)
-> systematische Auswahl aus der Grundgesamtheit
-> unbekannter Auswahlprozess aus der Grundgesamtheit
DGP: Daten generierende Prozesse (Erhebungs- und Messverfahren) mitentscheidend für den Nutzen
von Statistiken
Von wem/wann stammen die Daten? Könnte es zu Verzerrungen gegenüber dem zu untersuchenden
Sachverhalt kommen?
Stichprobe generiert nicht Repräsentativität!
Repräsentativität: Teilgesamtheit –und die aus ihr abgeleiteten Ergebnisse – können stellvertretend für
die Grundgesamtheit stehen; i.d.R. kommt es jedoch zu Verzerrungen (unbewusst/bewusst), d.h. die
Ergebnisse können nicht ohne weiteres verallgemeinert werden
-> Kombi aus zufälliger & systematischer Auswahl! Z.b Männer Frauen, Urbanes Gebiet/ Ländl.
Gebiet usw… zufällig Leute dann auswählen!
3. Merkmale (Variablen/Dimensionen): Eigenschaften von statistischen Einheiten, besitzt zwei
oder mehrere Merkmalsausprägungen (siehe Skalenniveaus)
4. Merkmalsausprägungen: sind die für die Merkmale ermittelten Werte der
Beobachtungseinheiten
• Welche Merkmale genau betrachtet werden sollen, hängt von der Fragestellung ab!
• Der Wertebereich eines Merkmals umfasst alle (möglichen) Ausprägungen
,Hinsichtlich Beobachtungseinheiten & Zeitpunkten gibt es vier Datensatzstrukturen
1. Querschnitt:
Stat. Einheiten= unterschiedlich
Zeitpunkt= gleich
2. Gepoolten Querschnitt:
Stat. Einheiten= unterschiedlich
Zeitpunkt= unterschiedlich
3. Zeitreihe/Längsschnitt
Stat. Einheit: eine!
Zeipunkt: unterschiedlich
4. Panel (balanciert)
Stat. Einheiten: Gleiche Stat. Einheiten tauschen mehrfach zu unterschiedlichen Zeitpunkten auf
Zeitpunkt: Unterschiedlich
-> regelmäßige Befragungen
Skalenniveaus:
Skala: Alle möglichen Ausprägungen zu einem Merkmal (egal ob Ausprägung gemessen oder nicht)
Skalenniveau: Gibt den Informationsgehalt des Merkmals an
,
, 1. Skalen: qualitativ /kategorial
• Nominales Merkmal:
-> Gibt im Vergleich nur die Aussage: Ist ein Merkmal gleich, oder nicht? z.B. Geschlecht, Farbe
Ausprägungen lassen sich nicht ordnen, sie lassen sich nur im Namen unterscheiden.
• Ordinales Merkmal:
-> Gibt die Aussage nach Gleich/Ungleich + Ordnung/Reihenfolge
-> Rangmerkmal, besitzen natürliche Reihenfolge.
-> Ausprägungen stehen in einer Ordnungsrelation zueinander. Z.B. Schulnoten, "Trifft zu, trifft
überhaut nicht zu" Umfragen
Qualitative Daten (z.B. Bilder, Text, Sprache) sind zunächst immer Nominal, können aber- etwa durch
Inhaltsanalysen- als Basis für quantitative Merkmale & Analysen dienen.
2. Skalen: quantitativ/metrisch/kardinal
• Metrische Merkmale: Ausprägungen= Vielfaches einer Einheit, z.B. Körpergröße 180 cm
nicht nur größer als 170 cm, sondern auch ein Vielfaches von der Einheit cm.
Intervall (auch in’s Minus möglich)
Verhältnisskala
Gruppierte & klassierte Daten
• Diskretes Merkmal = „Es gibt nichts Halbes! Eine Skala/Merkmal ist diskret, wenn es
endlich viele Skalenpunkte hat, d.h. es gibt Werte, zwischen denen keine Zwischenwerte
bestehen. Z.b. Personen im Haushalt: 1,2 oder 3, aber nie 1.5
„Wenn’s nichts Halbes gibt!!“ z.B. Jahreszahl
• Stetiges Merkmal: wenn es unendlich viele Skalenpunkte gibt, d.h. Zwischenwerte sind
möglich. z.B. Zeit, Länge
• Quasi stetiges Merkmal: Einfachshalber Behandelt man diese als stetig, obwohl sie
eigentlich diskret sind (z.B. Jahresumsatz eines Unternehmes kann zwar "nur auf den Cent
genau erfasst werden", hat aber sehr viele verschiedene Skalenpunkte)
1. Statistische Einheit (Erhebungseinheiten/ Merkmalsträger):
potenziell relevante Objekte, die zur Auswahl stehen, (z.B. Vorauswahl von 4 Paar Schuhe im Laden
2. Grundgesamtheit(Population/Statistische Masse ): Menge aller Statistischen Einheiten, (in
diesem Beispiel alle Schuhe im Laden, alternativ: Alle Schuhe die es gibt.)
-> Abgrenzung: Räumlich/ Zeitlich/ sachlich!
• Voll/Total-Erhebung: Grundgesamtheit vollständig erfasst (gesamte Population)
• Teilerhebung: Bruchteil der Grundgesamtheit betrachtet (Teilpopulation)
-> zufällige Auswahl aus der Grundgesamtheit (= Stichprobe)
-> systematische Auswahl aus der Grundgesamtheit
-> unbekannter Auswahlprozess aus der Grundgesamtheit
DGP: Daten generierende Prozesse (Erhebungs- und Messverfahren) mitentscheidend für den Nutzen
von Statistiken
Von wem/wann stammen die Daten? Könnte es zu Verzerrungen gegenüber dem zu untersuchenden
Sachverhalt kommen?
Stichprobe generiert nicht Repräsentativität!
Repräsentativität: Teilgesamtheit –und die aus ihr abgeleiteten Ergebnisse – können stellvertretend für
die Grundgesamtheit stehen; i.d.R. kommt es jedoch zu Verzerrungen (unbewusst/bewusst), d.h. die
Ergebnisse können nicht ohne weiteres verallgemeinert werden
-> Kombi aus zufälliger & systematischer Auswahl! Z.b Männer Frauen, Urbanes Gebiet/ Ländl.
Gebiet usw… zufällig Leute dann auswählen!
3. Merkmale (Variablen/Dimensionen): Eigenschaften von statistischen Einheiten, besitzt zwei
oder mehrere Merkmalsausprägungen (siehe Skalenniveaus)
4. Merkmalsausprägungen: sind die für die Merkmale ermittelten Werte der
Beobachtungseinheiten
• Welche Merkmale genau betrachtet werden sollen, hängt von der Fragestellung ab!
• Der Wertebereich eines Merkmals umfasst alle (möglichen) Ausprägungen
,Hinsichtlich Beobachtungseinheiten & Zeitpunkten gibt es vier Datensatzstrukturen
1. Querschnitt:
Stat. Einheiten= unterschiedlich
Zeitpunkt= gleich
2. Gepoolten Querschnitt:
Stat. Einheiten= unterschiedlich
Zeitpunkt= unterschiedlich
3. Zeitreihe/Längsschnitt
Stat. Einheit: eine!
Zeipunkt: unterschiedlich
4. Panel (balanciert)
Stat. Einheiten: Gleiche Stat. Einheiten tauschen mehrfach zu unterschiedlichen Zeitpunkten auf
Zeitpunkt: Unterschiedlich
-> regelmäßige Befragungen
Skalenniveaus:
Skala: Alle möglichen Ausprägungen zu einem Merkmal (egal ob Ausprägung gemessen oder nicht)
Skalenniveau: Gibt den Informationsgehalt des Merkmals an
,
, 1. Skalen: qualitativ /kategorial
• Nominales Merkmal:
-> Gibt im Vergleich nur die Aussage: Ist ein Merkmal gleich, oder nicht? z.B. Geschlecht, Farbe
Ausprägungen lassen sich nicht ordnen, sie lassen sich nur im Namen unterscheiden.
• Ordinales Merkmal:
-> Gibt die Aussage nach Gleich/Ungleich + Ordnung/Reihenfolge
-> Rangmerkmal, besitzen natürliche Reihenfolge.
-> Ausprägungen stehen in einer Ordnungsrelation zueinander. Z.B. Schulnoten, "Trifft zu, trifft
überhaut nicht zu" Umfragen
Qualitative Daten (z.B. Bilder, Text, Sprache) sind zunächst immer Nominal, können aber- etwa durch
Inhaltsanalysen- als Basis für quantitative Merkmale & Analysen dienen.
2. Skalen: quantitativ/metrisch/kardinal
• Metrische Merkmale: Ausprägungen= Vielfaches einer Einheit, z.B. Körpergröße 180 cm
nicht nur größer als 170 cm, sondern auch ein Vielfaches von der Einheit cm.
Intervall (auch in’s Minus möglich)
Verhältnisskala
Gruppierte & klassierte Daten
• Diskretes Merkmal = „Es gibt nichts Halbes! Eine Skala/Merkmal ist diskret, wenn es
endlich viele Skalenpunkte hat, d.h. es gibt Werte, zwischen denen keine Zwischenwerte
bestehen. Z.b. Personen im Haushalt: 1,2 oder 3, aber nie 1.5
„Wenn’s nichts Halbes gibt!!“ z.B. Jahreszahl
• Stetiges Merkmal: wenn es unendlich viele Skalenpunkte gibt, d.h. Zwischenwerte sind
möglich. z.B. Zeit, Länge
• Quasi stetiges Merkmal: Einfachshalber Behandelt man diese als stetig, obwohl sie
eigentlich diskret sind (z.B. Jahresumsatz eines Unternehmes kann zwar "nur auf den Cent
genau erfasst werden", hat aber sehr viele verschiedene Skalenpunkte)