Statistiek
Beschrijvende statistiek: samenvatting van de verkregen data
• Beschrijvende univariate statistiek: samenvatting van één variabele (univariaat)
Inferentiële statistiek: voorspellingen maken op basis van de verkregen data
Meetniveau van variabelen
Categorische variabelen
• Geen getallen, maar kenmerken of categorieën
o Nominaal: Geen rangorde → religie
▪ Dichotoom: Twee opties → geslacht
o Ordinaal: Rangorde → opleidingsniveau
Kwantitatieve variabelen
• Getallen (interval/ratio)
o Discreet: Hele getallen → aantal kinderen
o Continu: Elk getal → gewicht
Centrale tendentie
Centrummaten
• Gemiddelde (M)
o Verwachting, verwachte waarde
Σx
o x̄ =
𝑛
• Mediaan (Md)
o Het middelpunt van de observaties als je ze van laag naar hoog ordent
• Modus
o De waarde die het vaakst voorkomt
Verdeling
Categorische data
• Frequentietabel
o Proportie: observaties categorie / totaal observaties (n) → tussen 0 en 1
o Percentage: proportie x 100
• Taartdiagram (pie chart)
• Staafdiagram (bar chart)
Kwantitatieve data
• Dot plot (punt diagram)
• Stam diagram (Stem-and-leaf plot)
• Histogram
• Unimodaal: één modus
• Bimodaal: meer modi
• Scheve verdelingen
o Skewed to right
,Spreidingsmaten
• Spreiding: afwijkingen van het gemiddelde
o Grote spreiding: grote afwijkingen (zwart)
o Kleine spreiding: kleine afwijkingen (rood)
Standaarddeviatie
• Hoeveel de data gemiddeld afwijkt van het gemiddelde
o Nut en belang:
▪ Beschrijven en de spreiding van de data
▪ Het is makkelijker om data te vergelijken
▪ Meer spreiding → minder zekerheid
o Uitrekenen:
▪ Deviatie: (x - x̄)
▪ Deviatie wordt gekwadrateerd: (x − x̄ )2
▪ Allemaal bij elkaar optellen: Σ (x − x̄ )2
Σ (x − x̄)2
▪ Delen door het aantal observaties - 1:
𝑛 −1
Σ (x − x̄)2
▪ Worteltrekken: S = √
𝑛 −1
Variantie
• Standaarddeviantie zonder de wortel
Σ (x − x̄)2
• Variantie: 𝑆 2 =
𝑛 −1
• Standaarddeviatie is makkelijker in gebruik
Empirical rule
Klokvormige verdeling:
• 68% van de observaties ligt 1 standaarddeviatie van het gemiddelde af
o x̄ ± s
• 95% van de observaties ligt 2 standaarddeviatie van het gemiddelde af
o x̄ ± 2s
• 99% van de observaties ligt 3 standaarddeviatie van het gemiddelde af
o x̄ ± 3s
• Vaak willen we weten hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde ligt →
z-score
𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑒 −𝐺𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒
• Z=
𝑆𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑒
,Andere manieren om verdeling van data te beschrijven
• Percentielen
o Geeft aan hoeveel procent van de observaties op (of onder) een bepaald punt ligt
• Kwartielen
o 25e percentiel: kwartiel 1
o 50e percentiel: kwartiel 2 → mediaan
o 75e percentiel: kwartiel 3
• Interquartile range (IQR)
o De middelste 50% van de data
o Q3 – Q1
• Boxplot (box-whisker plot)
• Wanneer noem je een observatie een “outlier”?
o Als het meer dan 1.5 keer de IQR onder de Q1 of boven de Q3 ligt.
HC 2
Associatie en correlatie
• Associatie tussen twee variabele: de waarde van de ene variabele hangt samen met de waarde van de
andere variabele
o Roken en sterftekans
• Causaliteit: de onafhankelijke (explanatory) variabele (X) heeft een invloed op de afhankelijke
(response) variabele (Y)
o Leertijd en cijfer
Bij categorische variabelen:
• Kruistabellen (continency tables)
o Conditioneel: gegeven een bepaalde categorie, bijvoorbeeld democraat met blanke
huidskleur
o Marginaal ('aan de rand'): totaal, bijvoorbeeld democraat
▪ Causaliteit (X → Y): twee conditionele kansen vergelijken
, • Staafdiagrammen (bar charts)
o Je vergelijkt hier conditionele proporties / percentages
Bij kwantitatieve variabelen:
• Spreidingsdiagram (scatterplot)
o Positieve associatie: als X omhoog gaat, dan gaat Y ook omhoog
o Als je ruwweg een rechte lijn kan trekken door een scatterplot, dan bestaat er een lineair
verband tussen X en Y
o De correlatie drukt de sterkte van dit lineaire verband uit in een cijfer
Correlatie: de sterkte van een lineair verband
• Correlatie wordt uitgedrukt in r
• r ligt altijd tussen -1 en +1
o Hoe dichter r bij 0 ligt, des te zwakker het verband
o Hoe dichter r bij -1 of +1 ligt, des te sterker het verband
• De sterkte van de correlatie is onafhankelijk van de meeteenheden!
Associatie en correlatie
• Associatie betekent letterlijk: verband
• De correlatie drukt de sterkte van dit lineaire verband uit in een cijfer
• De variabelen moeten op interval / ratio niveau (kwantitatief) gemeten zijn, maar ordinaal meetniveau
is ook okay
• Richtlijn over de interpretatie van een correlatie. Wanneer spreken we van een sterk of zwak verband?
(Cohen)
o r = 0,10 zwakke correlatie
o r = 0,30 matige correlatie
o r = 0,50 sterke correlatie
Regressielijn, het lineaire model: Y = B0 + B1 * X
• Rechte lijn: meest eenvoudige benadering van de relatie tussen X en Y.
• Je maakt een regressielijn zodat je met de waarde van X de waarde van Y kunt voorspellen