Biostatistik II
VL 1 Wiederholung Biostatistik I
• Datensatz BGS enthält 184 Beobachtungen und 7 Variablen
• Die Daten stammen aus dem sogenannten Bundesgesundheitssurvey (BGS)
• BGS ist eine repräsentative Untersuchung zum Gesundheitszustand der Erwachsenenbevölkerung in Deutschland
• Im Folgenden sehen wir die ersten 8 Zeilen dieses Datensatzes:
Skalenniveaus
• Wir unterscheiden folgende Skalenniveaus:
➢ Nominalskala
➢ Ordinalskala
➢ Intervallskala
➢ Verhältnisskala
• Diese unterscheiden sich bezüglich der Operationen, die für sie zulässig sind:
Lagemaße
Arithmetisches Mittel
1 1
• Das arithmetische Mittel einer Stichprobe ist definiert als 𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖 = (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛)
𝑛 𝑛
• Das arithmetische Mittel ist nur für metrische Merkmale sinnvoll.
• Es beschreibt den Durchschnitt der Daten.
• Es ist nicht robust, d.h. es kann sehr stark von einzelnen Ausreißern beeinflusst werden.
Streuungsmaße und Schiefe
Varianz
• Die Varianz misst, wie stark die einzelnen Beobachtungen um den Mittelwert variieren.
1
• Die empirische Varianz ist definiert als 𝑠 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
• Die Varianz ist nur für metrische Merkmale sinnvoll.
• Beachte: In diesem Semester wird die Varianz öfter über die folgende Formel definiert (vgl. Kapitel "t-Tests")
𝑛
2
1
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖=1
und dabei als Stichprobenvarianz bezeichnet. Bei großem n gibt es kaum einen Unterschied zwischen beiden Formeln!
1
,Standardabweichung
• Die Standardabweichung s erhält man als 𝑠 = +√𝑠 2
• Sowohl 𝑠 2 als auch s sind keine robusten Streuungsmaße, sie reagieren also empfindlich auf Ausreißer.
• Die Einheit der Varianz ist die Einheit des Merkmals X zum Quadrat, während die Einheit der Standardabweichung der
Einheit des Merkmals selbst entspricht.
• Beispiel: Das Merkmal X sei die Körpergröße in m.
➢ Die Einheit der Varianz von X ist 𝑚2
➢ Die Einheit der Standardabweichung von X ist m.
Zusammenhangsmaße
𝑿𝟐 Statistik
Zufallsvariablen
Diskrete Zufallsvariablen
• Eine Zufallsvariable heißt diskret, wenn sie nur endlich viele oder abzählbar unendlich viele Werte 𝑥1 , ..., 𝑥𝑛 mit den
zugehörigen Wahrscheinlichkeiten annehmen kann.
• Die Menge {𝑥1 ; … ; 𝑥𝑛 } heißt Träger von X.
• Sei X eine diskrete Zufallsvariable. Die Zuordnung 𝑃(𝑋 = 𝑥𝑖 ) = 𝑓(𝑥𝑖 ) 𝑖 = 1, … , 𝑛 heißt Wahrscheinlichkeitsfunktion
von X.
• Es gilt: ∑𝑛𝑖=1 𝑃(𝑋 = 𝑥𝑖 ) = 1
Stetige Zufallsvariablen
• Eine Zufallsvariable heißt stetig, wenn sie überabzählbar viele Werte annehmen kann, zum Beispiel alle reellen Zahlen R.
• Um eine stetige Zufallsvariable X sinnvoll zu beschreiben, wird eine Funktion f (x) mit folgenden Eigenschaften benötigt:
➔ f (x) heißt dann Dichtefunktion oder Dichte von X.
• Diese Dichtefunktion ist das Gegenstück zur Wahrscheinlichkeitsfunktion für diskrete Zufallsvariablen.
• Dennoch ist die Dichte keine Wahrscheinlichkeit!
2
, Beispiel Dichtefunktion
• Die Normalverteilung (vgl. auch das folgende Kapitel der Vorlesung) ist ein Beispiel für eine stetige Zufallsvariable.
• Die Dichtefunktion der Normalverteilung sieht folgendermaßen aus:
• Die Dichte sagt uns, dass Werte nahe 0 sehr häufig
vorkommen, während beispielsweise Werte bei etwa +3 eher
selten vorkommen.
Quantile
Verteilungen
Normalverteilung
• Die Normalverteilung ist die in der Statistik am häufigsten verwendete stetige Verteilung.
• Die Normalverteilung wird auch als Gauß-Verteilung bezeichnet.
• In vielen Anwendungen lässt sich die empirische Verteilung von Daten durch eine Normalverteilung sehr gut
approximieren.
• Insbesondere bei großen Stichproben nähern sich viele Verteilungen der Normalverteilung.
➔ Wichtig bei statistischen Tests und für die Berechnung von Konfidenzintervallen!
3
VL 1 Wiederholung Biostatistik I
• Datensatz BGS enthält 184 Beobachtungen und 7 Variablen
• Die Daten stammen aus dem sogenannten Bundesgesundheitssurvey (BGS)
• BGS ist eine repräsentative Untersuchung zum Gesundheitszustand der Erwachsenenbevölkerung in Deutschland
• Im Folgenden sehen wir die ersten 8 Zeilen dieses Datensatzes:
Skalenniveaus
• Wir unterscheiden folgende Skalenniveaus:
➢ Nominalskala
➢ Ordinalskala
➢ Intervallskala
➢ Verhältnisskala
• Diese unterscheiden sich bezüglich der Operationen, die für sie zulässig sind:
Lagemaße
Arithmetisches Mittel
1 1
• Das arithmetische Mittel einer Stichprobe ist definiert als 𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖 = (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛)
𝑛 𝑛
• Das arithmetische Mittel ist nur für metrische Merkmale sinnvoll.
• Es beschreibt den Durchschnitt der Daten.
• Es ist nicht robust, d.h. es kann sehr stark von einzelnen Ausreißern beeinflusst werden.
Streuungsmaße und Schiefe
Varianz
• Die Varianz misst, wie stark die einzelnen Beobachtungen um den Mittelwert variieren.
1
• Die empirische Varianz ist definiert als 𝑠 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
• Die Varianz ist nur für metrische Merkmale sinnvoll.
• Beachte: In diesem Semester wird die Varianz öfter über die folgende Formel definiert (vgl. Kapitel "t-Tests")
𝑛
2
1
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖=1
und dabei als Stichprobenvarianz bezeichnet. Bei großem n gibt es kaum einen Unterschied zwischen beiden Formeln!
1
,Standardabweichung
• Die Standardabweichung s erhält man als 𝑠 = +√𝑠 2
• Sowohl 𝑠 2 als auch s sind keine robusten Streuungsmaße, sie reagieren also empfindlich auf Ausreißer.
• Die Einheit der Varianz ist die Einheit des Merkmals X zum Quadrat, während die Einheit der Standardabweichung der
Einheit des Merkmals selbst entspricht.
• Beispiel: Das Merkmal X sei die Körpergröße in m.
➢ Die Einheit der Varianz von X ist 𝑚2
➢ Die Einheit der Standardabweichung von X ist m.
Zusammenhangsmaße
𝑿𝟐 Statistik
Zufallsvariablen
Diskrete Zufallsvariablen
• Eine Zufallsvariable heißt diskret, wenn sie nur endlich viele oder abzählbar unendlich viele Werte 𝑥1 , ..., 𝑥𝑛 mit den
zugehörigen Wahrscheinlichkeiten annehmen kann.
• Die Menge {𝑥1 ; … ; 𝑥𝑛 } heißt Träger von X.
• Sei X eine diskrete Zufallsvariable. Die Zuordnung 𝑃(𝑋 = 𝑥𝑖 ) = 𝑓(𝑥𝑖 ) 𝑖 = 1, … , 𝑛 heißt Wahrscheinlichkeitsfunktion
von X.
• Es gilt: ∑𝑛𝑖=1 𝑃(𝑋 = 𝑥𝑖 ) = 1
Stetige Zufallsvariablen
• Eine Zufallsvariable heißt stetig, wenn sie überabzählbar viele Werte annehmen kann, zum Beispiel alle reellen Zahlen R.
• Um eine stetige Zufallsvariable X sinnvoll zu beschreiben, wird eine Funktion f (x) mit folgenden Eigenschaften benötigt:
➔ f (x) heißt dann Dichtefunktion oder Dichte von X.
• Diese Dichtefunktion ist das Gegenstück zur Wahrscheinlichkeitsfunktion für diskrete Zufallsvariablen.
• Dennoch ist die Dichte keine Wahrscheinlichkeit!
2
, Beispiel Dichtefunktion
• Die Normalverteilung (vgl. auch das folgende Kapitel der Vorlesung) ist ein Beispiel für eine stetige Zufallsvariable.
• Die Dichtefunktion der Normalverteilung sieht folgendermaßen aus:
• Die Dichte sagt uns, dass Werte nahe 0 sehr häufig
vorkommen, während beispielsweise Werte bei etwa +3 eher
selten vorkommen.
Quantile
Verteilungen
Normalverteilung
• Die Normalverteilung ist die in der Statistik am häufigsten verwendete stetige Verteilung.
• Die Normalverteilung wird auch als Gauß-Verteilung bezeichnet.
• In vielen Anwendungen lässt sich die empirische Verteilung von Daten durch eine Normalverteilung sehr gut
approximieren.
• Insbesondere bei großen Stichproben nähern sich viele Verteilungen der Normalverteilung.
➔ Wichtig bei statistischen Tests und für die Berechnung von Konfidenzintervallen!
3