Statistiek: theorie
Deel 1: Univariate beschrijvende statistiek
Gegevens v. 1 variabele op overzichtelijke en synthetische wijze weergeven: verdelingen beschrijven
1.1 basisconcepten
Bevolkingsgegevens (betrouwbaar) → beschrijvende statistiek
Steekproef → inductieve statistiek: op basis van EAS uitspraken doen over populatie
Statistische eenheid/ (onderzoeks)elementen:
onderdelen van realiteit waarop onderzoek betrekking heeft vb. individuen, gebeurtenissen…
(onderzoeks)populatie:
verzameling van (onderzoeks)elementen
Analyse-eenheid:
Eenheid waarop analyse gebeurt
Kwalitatieve/categorische variabelen
→ Nominale variabelen:
bv. geslacht, TV-zender, haarkleur, werelddeel=> het een is niet beter dan het ander
→ Ordinale variabelen:
ordening (meer/minder) bv. opleiding, opinievraag, kwaliteitsoordeel in *, medaille
Kwantitatieve / metrische variabelen
→ Intervalvariabelen
gelijke afstanden (hoeveel meer/minder) bv. temperatuur in graden Celsius, geboortejaar
→ Ratiovariabelen
Nulpunt bv. leeftijd, tijdsverschil, budget
Nominaal ordinaal interval ratio
Cum fi Cum fi Cum fi
In klassen In klassen
groeperen groeperen
Histogram mogelijk Histogram mogelijk
Rek. gemiddelde Rek. gemiddelde
M M M
Mo Mo Mo Mo
kwartielen kwartielen kwartielen
IKA IKA
S en S² S en S²
Associatiematen Associatiematen correlatie- en correlatie- en
(odds,chi², V…) (odds, chi², V…) regressieanalyse regressieanalyse
regel: wat kan op lager meetniveau kan ook op hoger meetniveau, maar niet omgekeerd!
nominaal < ordinaal < interval < ratio
1
,continue variabelen
Voor elke 2 mogelijke uitkomsten, mogelijk om 3e te bedenken die ertussen ligt; oneindige
uitkomstenverzameling (reële getallen) bv. tijd, exacte leeftijd, inkomen
Exclusieve klassen
discrete variabelen
Eindige uitkomstenverzameling (natuurlijke getallen) bv. leeftijd in verstreken jaren, aantal kinderen
1.2. Frequentieverdelingen
f fi= absolute frequentie | pi= relatieve frequentie= fractie= proportie
p= n
i
i
cumulatieve frequentie: enkel vanaf ordinaal
meetniveau
metrische variabelen: in klassen groeperen
Procedure voor klassenindeling:
Bepaal variatiebreedte = (maximum - minimum)
klassenbreedte = variatiebreedte + 1 / aantal gewenste klassen
eventueel open klassen bij laagste of hoogste klasse
Weergave door: klassengrenzen of klassenmidden (m= max+min/2)
!: Bij continue variabelen: klassen moeten exclusief zijn vb. [25,50[ [50,75[
1.3 maten van positie
Rekenkundig gemiddelde (X)
x=
x + x +. . .+ x
1 2 n
n
met absolute frequenties: met relatieve frequenties: met gegroepeerde gegevens:
m m m
x= ∑
1
n i=1
f ×xi i x=∑
i=1
p ×xi i x= ∑
1
n i=1
f ×m
i i
kenmerken
Enkel voor metrische variabelen (of in klassen gegroepeerd)
Evenwichtspunt (zwaartepunt) van de verdeling
Geen resistente (robuuste) maat: gevoelig voor uitschieters
Som van deviatiescores (afwijking tov gemiddelde) = 0
Mediaan (M)
= waarde van ((n + 1)/2)-de waarneming
n oneven: M direct afleesbaar
n even: M = gemiddelde van twee middelste waarnemingen
OF: cumulatieve relatieve frequentie: waarde van waarneming met p=0,50
Vanaf ordinaal ordinaal meetniveau
Modus
2
, Mo= waarde met de hoogste frequentie
vanaf nominaal meetniveau
Kwartielen
Q1 = waarde van de waarneming die de verdeling opsplitst in:
Q1 = 1((n+1)/4)
25% van waarnemingen kleiner en 75% van waarnemingen groter.
Mediaan van waarnemingen onder de globale mediaan Q2= Me= (n+1)/2
Q3 = waarde van de waarneming die de verdeling opsplitst in: Q3= 3((n+1)/4)
75% van waarnemingen kleiner en 25% van waarnemingen groter.
Mediaan van waarnemingen boven de globale mediaan
Geschikt vanaf ordinaal meetniveau
meer algemeen: percentielen (fractielen)
Percentiel x = waarde v/d waarneming die de verdeling opsplitst in: x % van waarnemingen kleiner
1.4 maten van spreiding
Interkwartielafstand
Q = Q3 - Q1 (= IKA)
centrale 50%: gebied waarbinnen zich helft van elementen bevindt
resistente maat van spreiding: weinig gevoelig voor uitschieters
geschikt op metrisch meetniveau
hoe groter = hoe meer spreiding
hoe kleiner = hoe minder spreiding
Uitschieters (outliers) bepalen:
ondergrens: Q1- (1,5.IKA)
bovengrens: Q3+ (1,5.IKA)
Boxplot
Spreiding groot = verder uit elkaar
50% tussen Q1 en Q3 = IKA
50% tussen Me en bovengrens/ ondergrens
25% tussen Me en Q1 / Q3
Variantie en standaardafwijking
Geeft aan hoe ver waarnemingen van gemiddelde verwijderd zijn
Variantie: Som v/d gekwadrateerde afwijkingen tov het gemiddelde/ n-1
n
∑ ( x i−x )
2
s=
2
i=1
n−1
Standaardafwijking: gemiddelde afwijking tov het gemiddelde
standaardafwijking meest gebruikte spreidingsmaat voor metrische variabelen
3
Deel 1: Univariate beschrijvende statistiek
Gegevens v. 1 variabele op overzichtelijke en synthetische wijze weergeven: verdelingen beschrijven
1.1 basisconcepten
Bevolkingsgegevens (betrouwbaar) → beschrijvende statistiek
Steekproef → inductieve statistiek: op basis van EAS uitspraken doen over populatie
Statistische eenheid/ (onderzoeks)elementen:
onderdelen van realiteit waarop onderzoek betrekking heeft vb. individuen, gebeurtenissen…
(onderzoeks)populatie:
verzameling van (onderzoeks)elementen
Analyse-eenheid:
Eenheid waarop analyse gebeurt
Kwalitatieve/categorische variabelen
→ Nominale variabelen:
bv. geslacht, TV-zender, haarkleur, werelddeel=> het een is niet beter dan het ander
→ Ordinale variabelen:
ordening (meer/minder) bv. opleiding, opinievraag, kwaliteitsoordeel in *, medaille
Kwantitatieve / metrische variabelen
→ Intervalvariabelen
gelijke afstanden (hoeveel meer/minder) bv. temperatuur in graden Celsius, geboortejaar
→ Ratiovariabelen
Nulpunt bv. leeftijd, tijdsverschil, budget
Nominaal ordinaal interval ratio
Cum fi Cum fi Cum fi
In klassen In klassen
groeperen groeperen
Histogram mogelijk Histogram mogelijk
Rek. gemiddelde Rek. gemiddelde
M M M
Mo Mo Mo Mo
kwartielen kwartielen kwartielen
IKA IKA
S en S² S en S²
Associatiematen Associatiematen correlatie- en correlatie- en
(odds,chi², V…) (odds, chi², V…) regressieanalyse regressieanalyse
regel: wat kan op lager meetniveau kan ook op hoger meetniveau, maar niet omgekeerd!
nominaal < ordinaal < interval < ratio
1
,continue variabelen
Voor elke 2 mogelijke uitkomsten, mogelijk om 3e te bedenken die ertussen ligt; oneindige
uitkomstenverzameling (reële getallen) bv. tijd, exacte leeftijd, inkomen
Exclusieve klassen
discrete variabelen
Eindige uitkomstenverzameling (natuurlijke getallen) bv. leeftijd in verstreken jaren, aantal kinderen
1.2. Frequentieverdelingen
f fi= absolute frequentie | pi= relatieve frequentie= fractie= proportie
p= n
i
i
cumulatieve frequentie: enkel vanaf ordinaal
meetniveau
metrische variabelen: in klassen groeperen
Procedure voor klassenindeling:
Bepaal variatiebreedte = (maximum - minimum)
klassenbreedte = variatiebreedte + 1 / aantal gewenste klassen
eventueel open klassen bij laagste of hoogste klasse
Weergave door: klassengrenzen of klassenmidden (m= max+min/2)
!: Bij continue variabelen: klassen moeten exclusief zijn vb. [25,50[ [50,75[
1.3 maten van positie
Rekenkundig gemiddelde (X)
x=
x + x +. . .+ x
1 2 n
n
met absolute frequenties: met relatieve frequenties: met gegroepeerde gegevens:
m m m
x= ∑
1
n i=1
f ×xi i x=∑
i=1
p ×xi i x= ∑
1
n i=1
f ×m
i i
kenmerken
Enkel voor metrische variabelen (of in klassen gegroepeerd)
Evenwichtspunt (zwaartepunt) van de verdeling
Geen resistente (robuuste) maat: gevoelig voor uitschieters
Som van deviatiescores (afwijking tov gemiddelde) = 0
Mediaan (M)
= waarde van ((n + 1)/2)-de waarneming
n oneven: M direct afleesbaar
n even: M = gemiddelde van twee middelste waarnemingen
OF: cumulatieve relatieve frequentie: waarde van waarneming met p=0,50
Vanaf ordinaal ordinaal meetniveau
Modus
2
, Mo= waarde met de hoogste frequentie
vanaf nominaal meetniveau
Kwartielen
Q1 = waarde van de waarneming die de verdeling opsplitst in:
Q1 = 1((n+1)/4)
25% van waarnemingen kleiner en 75% van waarnemingen groter.
Mediaan van waarnemingen onder de globale mediaan Q2= Me= (n+1)/2
Q3 = waarde van de waarneming die de verdeling opsplitst in: Q3= 3((n+1)/4)
75% van waarnemingen kleiner en 25% van waarnemingen groter.
Mediaan van waarnemingen boven de globale mediaan
Geschikt vanaf ordinaal meetniveau
meer algemeen: percentielen (fractielen)
Percentiel x = waarde v/d waarneming die de verdeling opsplitst in: x % van waarnemingen kleiner
1.4 maten van spreiding
Interkwartielafstand
Q = Q3 - Q1 (= IKA)
centrale 50%: gebied waarbinnen zich helft van elementen bevindt
resistente maat van spreiding: weinig gevoelig voor uitschieters
geschikt op metrisch meetniveau
hoe groter = hoe meer spreiding
hoe kleiner = hoe minder spreiding
Uitschieters (outliers) bepalen:
ondergrens: Q1- (1,5.IKA)
bovengrens: Q3+ (1,5.IKA)
Boxplot
Spreiding groot = verder uit elkaar
50% tussen Q1 en Q3 = IKA
50% tussen Me en bovengrens/ ondergrens
25% tussen Me en Q1 / Q3
Variantie en standaardafwijking
Geeft aan hoe ver waarnemingen van gemiddelde verwijderd zijn
Variantie: Som v/d gekwadrateerde afwijkingen tov het gemiddelde/ n-1
n
∑ ( x i−x )
2
s=
2
i=1
n−1
Standaardafwijking: gemiddelde afwijking tov het gemiddelde
standaardafwijking meest gebruikte spreidingsmaat voor metrische variabelen
3