Statistiek aantekeningen en PowerPoint
Les 1
Statistiek heeft invloed op de manier waarop de data verzameld, geordend, samengevat en
geanalyseerd wordt. Het is belangrijk voor de verwerking en interpretatie van onderzoeksresultaten
en onderbouwing van onderzoeksresultaten.
Het klassieke onderzoeksproces
• Observatie van een fenomeen
• Hypothese opstellen
• Ontwerpen strategie om hypothese te verwerpen of te bewijzen
• Experimenten uitvoeren
• Analyse van resultaten en conclusie trekken
• Rapporteren van onderzoeksbevindingen
• Replicatie
Vooral bij genetisch onderzoek mag pas iets gepubliceerd worden als twee verschillende metingen
dezelfde resultaten geven, omdat het dan reproduceerbaar is.
Populatie/ steekproef
Het is belangrijk om te weten of u met een steekproef of een populatie te maken heeft.
Een populatie: de volledige verzameling van alle personen/ objecten/ elementen waarvan je een
eigenschap wilt bestuderen. Het zijn dus bepaalde mensen binnen een groep. Hierbij wordt
standaarddeviatie aangegeven met s aangegeven en het gemiddelde met x.
Een steekproef: een deelverzameling van alle personen/ objecten/ elementen uit de populatie
waarvan we een eigenschap wille bestuderen. Het is een hele groep. Hierbij wordt de
standaarddeviatie aangegeven met σ en het gemiddelde met µ.
Gemiddelde
Meting 1 + meting 2 + ⋯
𝐺𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 =
Aantal metingen
Centrummaten
• Rekenkundig gemiddelde
• Modus; meest voorkomende waarde
• Mediaan; middelste waarde in een reeks. Het wordt vaak gebruikt bij niet normaal verdeelde
resultaten.
Hoe groter het aantal metingen, hoe betrouwbaarder de berekende waarde wordt.
Spreidingsmaten
Het is ook belangrijk om te kijken hoe de waarden rondom het gemiddelde verspreidt zijn, in plaats
van alleen maar het gemiddelde te bereken. Een maat voor de afwijking van alle waarden ten
, opzichte van het gemiddelde is standaarddeviatie (s). Een andere maat voor de afwijking van alle
waarden ten opzichte van het gemiddelde is variantie (s2).
Voorbeeld:
Hoe liggen de cijfers 2, 3, 5, 7 en 8 rondom het gemiddelde van 5 verspreid?
• Afwijking van 2 t.o.v. 5; -3
• Afwijking van 3 t.o.v. 5; -2
• Afwijking van 5 t.o.v. 5; 0
• Afwijking van 7 t.o.v. 5; 2
• Afwijking van 8 t.o.v. 5; 3
De gemiddelde afwijking is dus 0.
Variantie wordt berekend door het kwadraat te berekenen van de afwijkingen van alle waarde ten
opzichte van het gemiddelde, deze op te tellen en te delen door het aantal metingen -1.
De standaarddeviatie = √variantie.
Hoe kleiner de standaarddeviatie, des te makkelijker verschillen aangetoond kunnen worden tussen
de steekproef en de populatie.
Een andere gebruikte maat voor de spreiding is variatiecoëfficiënt:
Dus de standaarddeviatie gedeeld door het gemiddelde.
Het is dimensie loos en kan gebruikt worden om verschillende variabelen te vergelijken, zeker als
deze variabelen sterk uiteenlopende gemiddelde hebben. Het kan gebruikt worden tussen
verschillende steekproeven.
Uitbijters/ uitschieters
In een data kunnen verschillende waarden veel hoger/ lager liggen dan de rest. Deze resultaten
(uitbijters) verstoren de resultaten, omdat deze invloed kunnen hebben op het gemiddelde. De
resultaten weglaten mag ook niet zomaar, het wordt namelijk gezien als data manipulatie = fraude.
Om te kijken of resultaten een uitbijter zijn kan een uitbijtertoets uitgevoerd worden:
• Dixon’s Q
• Grubbs’G
Verwijder nooit zomaar de uitbijter zonder hierdoor grondig onderzoek te doen. Vermeld
verwijderde uitbijters ook altijd.
Dixon’s Q (tabel 9 reader)
|𝑠𝑢𝑠𝑝𝑒𝑐𝑡 −𝑛𝑒𝑎𝑟𝑒𝑠𝑡|
Q=
𝑙𝑎𝑟𝑔𝑒𝑠𝑡 −𝑠𝑚𝑎𝑙𝑙𝑒𝑠𝑡
Deze uitkomst wordt vergeleken met een tabelwaarde. Als Qberekend > Qtabel dan is het een
uitbijter. Omdat de nulhypothese zegt dat er geen uitbijter is, is NIET waar. De alternatieve
hypothese is dan waar, en wordt aangenomen.
Les 1
Statistiek heeft invloed op de manier waarop de data verzameld, geordend, samengevat en
geanalyseerd wordt. Het is belangrijk voor de verwerking en interpretatie van onderzoeksresultaten
en onderbouwing van onderzoeksresultaten.
Het klassieke onderzoeksproces
• Observatie van een fenomeen
• Hypothese opstellen
• Ontwerpen strategie om hypothese te verwerpen of te bewijzen
• Experimenten uitvoeren
• Analyse van resultaten en conclusie trekken
• Rapporteren van onderzoeksbevindingen
• Replicatie
Vooral bij genetisch onderzoek mag pas iets gepubliceerd worden als twee verschillende metingen
dezelfde resultaten geven, omdat het dan reproduceerbaar is.
Populatie/ steekproef
Het is belangrijk om te weten of u met een steekproef of een populatie te maken heeft.
Een populatie: de volledige verzameling van alle personen/ objecten/ elementen waarvan je een
eigenschap wilt bestuderen. Het zijn dus bepaalde mensen binnen een groep. Hierbij wordt
standaarddeviatie aangegeven met s aangegeven en het gemiddelde met x.
Een steekproef: een deelverzameling van alle personen/ objecten/ elementen uit de populatie
waarvan we een eigenschap wille bestuderen. Het is een hele groep. Hierbij wordt de
standaarddeviatie aangegeven met σ en het gemiddelde met µ.
Gemiddelde
Meting 1 + meting 2 + ⋯
𝐺𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 =
Aantal metingen
Centrummaten
• Rekenkundig gemiddelde
• Modus; meest voorkomende waarde
• Mediaan; middelste waarde in een reeks. Het wordt vaak gebruikt bij niet normaal verdeelde
resultaten.
Hoe groter het aantal metingen, hoe betrouwbaarder de berekende waarde wordt.
Spreidingsmaten
Het is ook belangrijk om te kijken hoe de waarden rondom het gemiddelde verspreidt zijn, in plaats
van alleen maar het gemiddelde te bereken. Een maat voor de afwijking van alle waarden ten
, opzichte van het gemiddelde is standaarddeviatie (s). Een andere maat voor de afwijking van alle
waarden ten opzichte van het gemiddelde is variantie (s2).
Voorbeeld:
Hoe liggen de cijfers 2, 3, 5, 7 en 8 rondom het gemiddelde van 5 verspreid?
• Afwijking van 2 t.o.v. 5; -3
• Afwijking van 3 t.o.v. 5; -2
• Afwijking van 5 t.o.v. 5; 0
• Afwijking van 7 t.o.v. 5; 2
• Afwijking van 8 t.o.v. 5; 3
De gemiddelde afwijking is dus 0.
Variantie wordt berekend door het kwadraat te berekenen van de afwijkingen van alle waarde ten
opzichte van het gemiddelde, deze op te tellen en te delen door het aantal metingen -1.
De standaarddeviatie = √variantie.
Hoe kleiner de standaarddeviatie, des te makkelijker verschillen aangetoond kunnen worden tussen
de steekproef en de populatie.
Een andere gebruikte maat voor de spreiding is variatiecoëfficiënt:
Dus de standaarddeviatie gedeeld door het gemiddelde.
Het is dimensie loos en kan gebruikt worden om verschillende variabelen te vergelijken, zeker als
deze variabelen sterk uiteenlopende gemiddelde hebben. Het kan gebruikt worden tussen
verschillende steekproeven.
Uitbijters/ uitschieters
In een data kunnen verschillende waarden veel hoger/ lager liggen dan de rest. Deze resultaten
(uitbijters) verstoren de resultaten, omdat deze invloed kunnen hebben op het gemiddelde. De
resultaten weglaten mag ook niet zomaar, het wordt namelijk gezien als data manipulatie = fraude.
Om te kijken of resultaten een uitbijter zijn kan een uitbijtertoets uitgevoerd worden:
• Dixon’s Q
• Grubbs’G
Verwijder nooit zomaar de uitbijter zonder hierdoor grondig onderzoek te doen. Vermeld
verwijderde uitbijters ook altijd.
Dixon’s Q (tabel 9 reader)
|𝑠𝑢𝑠𝑝𝑒𝑐𝑡 −𝑛𝑒𝑎𝑟𝑒𝑠𝑡|
Q=
𝑙𝑎𝑟𝑔𝑒𝑠𝑡 −𝑠𝑚𝑎𝑙𝑙𝑒𝑠𝑡
Deze uitkomst wordt vergeleken met een tabelwaarde. Als Qberekend > Qtabel dan is het een
uitbijter. Omdat de nulhypothese zegt dat er geen uitbijter is, is NIET waar. De alternatieve
hypothese is dan waar, en wordt aangenomen.