Hoofdstuk 1: inleiding
1.1 statistiek en kansrekening
statistiek = wetenschap van het verzamelen, voorstellen, analyseren en interpreteren van gegevens
populatie = verzameling alle elementen die we bestuderen
steekproef = deelverzameling uit populatie
o steekproefgegevens: concrete meetwaarden van de kenmerken
variabelen = kenmerken die we willen bestuderen
soorten statistiek
o beschrijvende: inzichtelijk voorstellen (grafieken, tabellen,...)
o verklarende: analyse uit steekproef veralgemenen
kansrekening = studie van experimenten waarin toeval een rol speelt
o veralgemening van steekproef naar populatie -> onzekerheid!
o Op voorhand uitspraak doen over experiment dat aan bep. onderstellingen voldoet
Statistiek: vertrekken vanuit uitkomsten van experiment & toetst hypothesen
1.2 soorten gegevens en variabelen
gegevens: in overvloed
o info over 1(+) variabelen van aantal elementen van populatie
1.2.1 kwalitatieve variabelen en gegevens
kwalitatieve of categorische variabelen
nominale variabele: enkel verdeeld in categorieën
o kunnen niet gemeten worden op numerieke schaal
o enige bewerking: tellen
vb: man/vrouw
ordinale variabel: kunnen geordend worden
vb: michelin ster
1.2.2 kwantitatieve variabelen en gegevens
kwantitatieve variabele: meetbaar op numerieke schaal met vaste meeteenheid
o intervalschaal: nulpunt arbitrair gekozen
bewerkingen: ordenen, tellen, optrekken, aftellen
vb: temp. In celsius, kalenderjaar
o ratioschaal: natuurlijk nulpunt
bij 0 is eigenschap weg
bewerkingen: ordenen, tellen, optrekken, aftellen, vermenigvuldigen, delen
vb: leeftijd, lengte
indeling obv aantal aan te nemen waarden
o continue: onaftelbaar oneindig aantal waarden
vb: tijd, lengte
o discrete: eindig, aftelbaar oneindig aantal waarden
vb: geboortecijfer, aantal mensen
1
,hoofdstuk 2: beschrijvende statistiek
2.1 voorstellen van gegevens
Datamatrix (tabel): De elementen van de steekproef worden in rijen uitgezet en de variabelen in
kolommen ->Gegevens overzichtelijk weergeven
2.1.1 univariate kwalitatieve gegevens
(absolute) frequentie: het aantal elementen die kunnen geklasseerd worden in een categorie
Relatieve frequentie: verhouding van frequentie van een categorie tot het totaal aantal elementen in de
steekproef
Staafdiagram : Je geeft hierbij de absolute frequentie weer per klasse
Paretodiagram: relatieve frequenties worden gecumuleerd = samengesteld met vorige ; categoriën
rangschikken volgens dalende frequentie
Cirkeldiagram: grootte van sectoren geven frequenties weer -> gebruik afgeraden (moeilijk in te schatten)
2.1.2 univariate kwantitatieve gegevens
Stengel- & bladdiagram: gegevens samenvatten met behoud van deelinformatie
Opsplitsing afh van aantal gegevens en grootte-orde
Ook stengels zonder bladeren weergeven
90° draaien -> staafdiagram
o Voor discrete variabelen die slechts
Kleine aantal verschillende waarden
aannemen
Histogram: “staafdiagram voor continue variabelen
Gegevens discreet maken door ze in klassen te steken -> klassebreedte
o Meestal even breed gekozen
o Aantal: vuistregel = wortel aantal,
Max 20
Rf = opp balk; tot opp = 1
Frequentiepolygoon: histogram waarbij toppen verbonden zijn (tot opp=1)
2
,2.1.3 bivariate gegevens
Kruistabel: gegevens 2 kwalitatieve variabelen samenvatten
Cellen: frequenties van gegevens voor combinatie van beide variabelen
Grafisch voorstelling: meervoudig staafdiagram
Stapeldiagram: (rechts met procenten => verhoudingen beter zien
Scatterdiagram/ puntenwolk: elk element uitgezet in 2dimensionaal vlak -> verbanden tssn variabelen
opsporen
2.2 cumulatieve frequenties
2.1.1 cumulatieve verdelingsfunctie
(empirische) cumulatieve verdelingsfunctie Fn: relatieve positie in steekproef
X moet niet tot de steekproef behoren
(rechtscontinu)
2.2.2 kwantielfunctie
(empirische) kwantielfunctie Qn: inverse van empirische cumulatieve verdelingsfunctie
Eenvoudige formule:
Rekenformule:
3
, 2.3 centrumkernmerken
Gegevens samenvatten in 1 getal => statistiek
• dat getal ligt best ergens in het midden: centrumkernmerken (gemiddelde, getrimd gemiddelde,
mediaan, modus)
• hoe liggen die gegevens verspreid rond het midden: spreidingskernmerken (variantie,
variantiecoë icient, spreidingsbreedte, interkwartielafstand)
2.3.1 gemiddelde
steekproefgemiddelde x: meest gebruikte
Rekenkundig gemiddelde van de steekproefgegevens
Som steekproefgegevens
Gewogen gemiddelde: adhv frequenties
o k: aantal mogelijke waarden in steekproef
o mj: aantal mogelijke waarden in steekproef
o fj: bijhorende (absolute) frequentie
o fj/n: relatieve frequenties
eigenschappen:
o Som van afwijkingen van gegevens t.o.v. gemiddelde is 0:
o Gegevens xi schalen met factor a en verschuiven over afstand b
⇒ gemiddelde transformeert op dezelfde manier
2.3.2 getrimd gemiddelde
= gem zonder uitschieters: x% grootste en kleinste gegevens weglaten en gem berekenen
2.3.3 mediaan
Getal exact in het middel v/d steekproef
o Indien even aantal: gem van de middelste
Niet gevoelig voor uitschieters
Formule:
Relatie met kwantielfunctie:
2.3.4 modus
Voor nominale en ordinale variabelen heeft (getrimd) gemiddelde geen betekenis
Ordinale variabelen: mediaan bepalen
Nominale variabelen: modus bepalen
Modus= element dat meest voorkomt in steekproef (hoogste frequetie)
Er zijn ook geen, maar ook meerdere mogelijk
2.4 spreidingskenmerken
= geeft aan hoe de gegevens gespreid liggen rond het centrum
4
1.1 statistiek en kansrekening
statistiek = wetenschap van het verzamelen, voorstellen, analyseren en interpreteren van gegevens
populatie = verzameling alle elementen die we bestuderen
steekproef = deelverzameling uit populatie
o steekproefgegevens: concrete meetwaarden van de kenmerken
variabelen = kenmerken die we willen bestuderen
soorten statistiek
o beschrijvende: inzichtelijk voorstellen (grafieken, tabellen,...)
o verklarende: analyse uit steekproef veralgemenen
kansrekening = studie van experimenten waarin toeval een rol speelt
o veralgemening van steekproef naar populatie -> onzekerheid!
o Op voorhand uitspraak doen over experiment dat aan bep. onderstellingen voldoet
Statistiek: vertrekken vanuit uitkomsten van experiment & toetst hypothesen
1.2 soorten gegevens en variabelen
gegevens: in overvloed
o info over 1(+) variabelen van aantal elementen van populatie
1.2.1 kwalitatieve variabelen en gegevens
kwalitatieve of categorische variabelen
nominale variabele: enkel verdeeld in categorieën
o kunnen niet gemeten worden op numerieke schaal
o enige bewerking: tellen
vb: man/vrouw
ordinale variabel: kunnen geordend worden
vb: michelin ster
1.2.2 kwantitatieve variabelen en gegevens
kwantitatieve variabele: meetbaar op numerieke schaal met vaste meeteenheid
o intervalschaal: nulpunt arbitrair gekozen
bewerkingen: ordenen, tellen, optrekken, aftellen
vb: temp. In celsius, kalenderjaar
o ratioschaal: natuurlijk nulpunt
bij 0 is eigenschap weg
bewerkingen: ordenen, tellen, optrekken, aftellen, vermenigvuldigen, delen
vb: leeftijd, lengte
indeling obv aantal aan te nemen waarden
o continue: onaftelbaar oneindig aantal waarden
vb: tijd, lengte
o discrete: eindig, aftelbaar oneindig aantal waarden
vb: geboortecijfer, aantal mensen
1
,hoofdstuk 2: beschrijvende statistiek
2.1 voorstellen van gegevens
Datamatrix (tabel): De elementen van de steekproef worden in rijen uitgezet en de variabelen in
kolommen ->Gegevens overzichtelijk weergeven
2.1.1 univariate kwalitatieve gegevens
(absolute) frequentie: het aantal elementen die kunnen geklasseerd worden in een categorie
Relatieve frequentie: verhouding van frequentie van een categorie tot het totaal aantal elementen in de
steekproef
Staafdiagram : Je geeft hierbij de absolute frequentie weer per klasse
Paretodiagram: relatieve frequenties worden gecumuleerd = samengesteld met vorige ; categoriën
rangschikken volgens dalende frequentie
Cirkeldiagram: grootte van sectoren geven frequenties weer -> gebruik afgeraden (moeilijk in te schatten)
2.1.2 univariate kwantitatieve gegevens
Stengel- & bladdiagram: gegevens samenvatten met behoud van deelinformatie
Opsplitsing afh van aantal gegevens en grootte-orde
Ook stengels zonder bladeren weergeven
90° draaien -> staafdiagram
o Voor discrete variabelen die slechts
Kleine aantal verschillende waarden
aannemen
Histogram: “staafdiagram voor continue variabelen
Gegevens discreet maken door ze in klassen te steken -> klassebreedte
o Meestal even breed gekozen
o Aantal: vuistregel = wortel aantal,
Max 20
Rf = opp balk; tot opp = 1
Frequentiepolygoon: histogram waarbij toppen verbonden zijn (tot opp=1)
2
,2.1.3 bivariate gegevens
Kruistabel: gegevens 2 kwalitatieve variabelen samenvatten
Cellen: frequenties van gegevens voor combinatie van beide variabelen
Grafisch voorstelling: meervoudig staafdiagram
Stapeldiagram: (rechts met procenten => verhoudingen beter zien
Scatterdiagram/ puntenwolk: elk element uitgezet in 2dimensionaal vlak -> verbanden tssn variabelen
opsporen
2.2 cumulatieve frequenties
2.1.1 cumulatieve verdelingsfunctie
(empirische) cumulatieve verdelingsfunctie Fn: relatieve positie in steekproef
X moet niet tot de steekproef behoren
(rechtscontinu)
2.2.2 kwantielfunctie
(empirische) kwantielfunctie Qn: inverse van empirische cumulatieve verdelingsfunctie
Eenvoudige formule:
Rekenformule:
3
, 2.3 centrumkernmerken
Gegevens samenvatten in 1 getal => statistiek
• dat getal ligt best ergens in het midden: centrumkernmerken (gemiddelde, getrimd gemiddelde,
mediaan, modus)
• hoe liggen die gegevens verspreid rond het midden: spreidingskernmerken (variantie,
variantiecoë icient, spreidingsbreedte, interkwartielafstand)
2.3.1 gemiddelde
steekproefgemiddelde x: meest gebruikte
Rekenkundig gemiddelde van de steekproefgegevens
Som steekproefgegevens
Gewogen gemiddelde: adhv frequenties
o k: aantal mogelijke waarden in steekproef
o mj: aantal mogelijke waarden in steekproef
o fj: bijhorende (absolute) frequentie
o fj/n: relatieve frequenties
eigenschappen:
o Som van afwijkingen van gegevens t.o.v. gemiddelde is 0:
o Gegevens xi schalen met factor a en verschuiven over afstand b
⇒ gemiddelde transformeert op dezelfde manier
2.3.2 getrimd gemiddelde
= gem zonder uitschieters: x% grootste en kleinste gegevens weglaten en gem berekenen
2.3.3 mediaan
Getal exact in het middel v/d steekproef
o Indien even aantal: gem van de middelste
Niet gevoelig voor uitschieters
Formule:
Relatie met kwantielfunctie:
2.3.4 modus
Voor nominale en ordinale variabelen heeft (getrimd) gemiddelde geen betekenis
Ordinale variabelen: mediaan bepalen
Nominale variabelen: modus bepalen
Modus= element dat meest voorkomt in steekproef (hoogste frequetie)
Er zijn ook geen, maar ook meerdere mogelijk
2.4 spreidingskenmerken
= geeft aan hoe de gegevens gespreid liggen rond het centrum
4