Statistiek Samenvatting
Week 1
Beschrijvende statistiek = beschrijft data d.m.v. het ordenen, samenvatten en presenteren op
een effectieve en informatieve manier
Infertiele statistiek = trekt conclusies over gehele populatie gebaseerd op steekproef data
Populatie = gehele groep
Parameter = beschrijvende maatstaaf voor populatie
Sample = steekproef, geobserveerde deel van de populatie
Statistic = beschrijvende maatstaaf voor sample
Statistische inferentie = het schatten van een conclusie voor de gehele populatie op basis
van data uit een sample
Betrouwbaarheidsniveau = gedeelte hoe vaak een schatting van data waar zal zijn
Significantieniveau = gedeelte hoe vaak een schatting van een conclusie fout zal zijn
3 soorten data:
Kwantitatief
o Interval: echte cijfers zoals lengte, afstand etc., kan alles op gerekend worden
Kwalitatief
o Nominaal: ingedeeld in categorieën zoals kleur, kan niet op gerekend worden
o Ordinaal: categorieën die gerangschikt kunnen zoals goed tot slecht, kan beperkt
op worden gerekend
Frequentieverdeling = waarnemingen in niet overlappende klassen worden ingedeeld en van
elk klas het aantal observaties wordt vermeld
Relatieve frequentieverdeling = frequentieverdeling in hoeveel het van het geheel is
Staafdiagram = diagram dat de absolute frequentie van kwalitatieve data weergeeft
Taartdiagram = diagram dat relatieve frequentie in een cirkel weergeeft
Klasse = gecategoriseerde groep van data
Histogram = grafiek van frequentietabel
Symmetrisch
Scheef: naar rechts uitlopend/positief of naar links uitlopend/negatief
Normale verdeling: bell shaped
Het aantal klassen dat geschikt is voor een histogram heeft een tabel (zie boek). De grootte
van de klasse is het bereik/aantal klassen.
Modale klasse = klasse met hoogste aantal observaties, unimodaal/bimodaal
Ogives = grafische representatie van cumulatieve relatieve frequentieverdeling
Steel-blad diagram = alternatief van histogram met cijfers gesorteerd in steel en blad
Cross-sectional data = data allemaal verzamelt op hetzelfde moment
Time-series data = data wordt verzameld op verschillende punten over tijd
Week 2
Meten van centrale locatie:
Gemiddelde: interval, som van alle waarnemingen/aantal waarnemingen, gevoelig voor
uitbijters
Mediaan: ordinaal, na ordening de middelste waarneming
Modus: nominaal, waarneming met hoogste frequentie
Meten van spreiding:
, Variatiebreedte: verschil tussen hoogste en laagste waarneming
Variantie: gemiddelde van de gekwadrateerde afstanden van het gemiddelde
1. Gemiddelde berekenen en de afstanden die waarnemingen hiervan hebben
2. Afstanden kwadrateren
3. Gemiddelde berekenen van gekwadrateerde afstanden
Standaarddeviatie: wortel van variantie
o Normale verdeling: empirische regel voor standaarddeviatie
68% van de waarnemingen valt binnen 1 standaarddeviatie in afstand van het
gemiddelde
95% van de waarnemingen valt binnen 2 x de standaarddeviatie
99,7% valt binnen 3 x de standaarddeviatie in afstand van het gemiddelde
o Andere verdeling: gebruik van Chebysheff’s theorie:
1
1− geeft een hoeveelheid
aantal x standaarddeviatie van het gemiddelde af
hoeveel % minimaal binnen deze afstand ligt
Variatiecoëfficiënt: standaarddeviatie/gemiddelde
Percentiel = voor een p-percentiel valt p% van de waardes eronder
Voor het eerste deciel ligt 10% onder deze waarneming
Eerste (Q1), tweede (mediaan) en derde (Q3) kwartiel
Interkwartiele afstand = Q3-Q1
p
LP =( n+1) om een schatting te doen waar de locatie van het p-percentiel ligt
100
Box plot = weergaven van kleinste en grootste waarde + kwartielen
Uitbijter = extreem grote of kleine waarde in een sample, kan door een fout zijn, ligt op
grotere afstand van de box plot dan 1.5(Q3-Q1)
Week 3
Random experiment = actie/proces die tot een van verschillende mogelijke uitkomsten leidt
Sample space = lijst van alle mogelijke uitkomsten die uitputtend en wederzijds uitsluitend is
Hierbij geldt voor de kans P(O) dat deze tussen 0 en 1 moet liggen en de som van alle
kansen van alle uitkomsten gelijk moet zijn aan 1.
3 benaderingen voor kansberekening
1. Klassieke benadering = gebaseerd op dat iedere kant symmetrisch even veel kans heeft,
k uitkomsten dus kansberekening is 1/k
2. Statistische benadering = gebaseerd op lange termijn relatieve frequentie uitkomsten in
herhaalde experimenten, n experimenten waarbij de uitkomst x keer voorkomt dus
kansberekening is x/n
3. Subjectieve benadering = gebaseerd op persoonlijke evaluatie van situatie
Simple event = individuele uitkomsten, kunnen niet verder opgesplitst worden
Willekeurige gebeurtenis = uitkomst van een verzameling van een of meer simple events,
kans is som van alle simple events binnen deze willekeurige gebeurtenis
Week 1
Beschrijvende statistiek = beschrijft data d.m.v. het ordenen, samenvatten en presenteren op
een effectieve en informatieve manier
Infertiele statistiek = trekt conclusies over gehele populatie gebaseerd op steekproef data
Populatie = gehele groep
Parameter = beschrijvende maatstaaf voor populatie
Sample = steekproef, geobserveerde deel van de populatie
Statistic = beschrijvende maatstaaf voor sample
Statistische inferentie = het schatten van een conclusie voor de gehele populatie op basis
van data uit een sample
Betrouwbaarheidsniveau = gedeelte hoe vaak een schatting van data waar zal zijn
Significantieniveau = gedeelte hoe vaak een schatting van een conclusie fout zal zijn
3 soorten data:
Kwantitatief
o Interval: echte cijfers zoals lengte, afstand etc., kan alles op gerekend worden
Kwalitatief
o Nominaal: ingedeeld in categorieën zoals kleur, kan niet op gerekend worden
o Ordinaal: categorieën die gerangschikt kunnen zoals goed tot slecht, kan beperkt
op worden gerekend
Frequentieverdeling = waarnemingen in niet overlappende klassen worden ingedeeld en van
elk klas het aantal observaties wordt vermeld
Relatieve frequentieverdeling = frequentieverdeling in hoeveel het van het geheel is
Staafdiagram = diagram dat de absolute frequentie van kwalitatieve data weergeeft
Taartdiagram = diagram dat relatieve frequentie in een cirkel weergeeft
Klasse = gecategoriseerde groep van data
Histogram = grafiek van frequentietabel
Symmetrisch
Scheef: naar rechts uitlopend/positief of naar links uitlopend/negatief
Normale verdeling: bell shaped
Het aantal klassen dat geschikt is voor een histogram heeft een tabel (zie boek). De grootte
van de klasse is het bereik/aantal klassen.
Modale klasse = klasse met hoogste aantal observaties, unimodaal/bimodaal
Ogives = grafische representatie van cumulatieve relatieve frequentieverdeling
Steel-blad diagram = alternatief van histogram met cijfers gesorteerd in steel en blad
Cross-sectional data = data allemaal verzamelt op hetzelfde moment
Time-series data = data wordt verzameld op verschillende punten over tijd
Week 2
Meten van centrale locatie:
Gemiddelde: interval, som van alle waarnemingen/aantal waarnemingen, gevoelig voor
uitbijters
Mediaan: ordinaal, na ordening de middelste waarneming
Modus: nominaal, waarneming met hoogste frequentie
Meten van spreiding:
, Variatiebreedte: verschil tussen hoogste en laagste waarneming
Variantie: gemiddelde van de gekwadrateerde afstanden van het gemiddelde
1. Gemiddelde berekenen en de afstanden die waarnemingen hiervan hebben
2. Afstanden kwadrateren
3. Gemiddelde berekenen van gekwadrateerde afstanden
Standaarddeviatie: wortel van variantie
o Normale verdeling: empirische regel voor standaarddeviatie
68% van de waarnemingen valt binnen 1 standaarddeviatie in afstand van het
gemiddelde
95% van de waarnemingen valt binnen 2 x de standaarddeviatie
99,7% valt binnen 3 x de standaarddeviatie in afstand van het gemiddelde
o Andere verdeling: gebruik van Chebysheff’s theorie:
1
1− geeft een hoeveelheid
aantal x standaarddeviatie van het gemiddelde af
hoeveel % minimaal binnen deze afstand ligt
Variatiecoëfficiënt: standaarddeviatie/gemiddelde
Percentiel = voor een p-percentiel valt p% van de waardes eronder
Voor het eerste deciel ligt 10% onder deze waarneming
Eerste (Q1), tweede (mediaan) en derde (Q3) kwartiel
Interkwartiele afstand = Q3-Q1
p
LP =( n+1) om een schatting te doen waar de locatie van het p-percentiel ligt
100
Box plot = weergaven van kleinste en grootste waarde + kwartielen
Uitbijter = extreem grote of kleine waarde in een sample, kan door een fout zijn, ligt op
grotere afstand van de box plot dan 1.5(Q3-Q1)
Week 3
Random experiment = actie/proces die tot een van verschillende mogelijke uitkomsten leidt
Sample space = lijst van alle mogelijke uitkomsten die uitputtend en wederzijds uitsluitend is
Hierbij geldt voor de kans P(O) dat deze tussen 0 en 1 moet liggen en de som van alle
kansen van alle uitkomsten gelijk moet zijn aan 1.
3 benaderingen voor kansberekening
1. Klassieke benadering = gebaseerd op dat iedere kant symmetrisch even veel kans heeft,
k uitkomsten dus kansberekening is 1/k
2. Statistische benadering = gebaseerd op lange termijn relatieve frequentie uitkomsten in
herhaalde experimenten, n experimenten waarbij de uitkomst x keer voorkomt dus
kansberekening is x/n
3. Subjectieve benadering = gebaseerd op persoonlijke evaluatie van situatie
Simple event = individuele uitkomsten, kunnen niet verder opgesplitst worden
Willekeurige gebeurtenis = uitkomst van een verzameling van een of meer simple events,
kans is som van alle simple events binnen deze willekeurige gebeurtenis