Statistiek 1.
Statistiek is de methode in de wetenschap die we gebruiken om:
- Informatie te halen uit waarnemingen die voor een deel voortkomen uit random processen.
- De onzekerheid in onze uitspraken (die gebaseerd zijn op waarnemingen) aan te tonen.
- Via een bepaalde methode een experimenteel ontwerp bepalen, zoals het kiezen van een
steekproef.
Spreiding is het verschil tussen data wanneer je bv elke keer iets meet (doorsnede van een koekje) en
elke keer het rond de 3 cm ligt maar niet elke keer exact 3 cm.
Waar komt de spreiding (variance) in onze data vandaan?
- Systematische fouten: zoals meetfouten en interne ruis van sensoren
- Confounding: door veranderingen in experimentele condities die we niet weten bv de bron van het
materiaal kan een extra spreiding veroorzaken.
- Willekeurige fout: puur random gedrag van het systeem zelf. Kleine mutaties in de data.
Er is altijd een spreiding en dus onzekerheid in de data. Hoe groter de spreiding is, hoe vaker een
meting opnieuw moet worden gedaan.
Nu gaan we voor elk koekje 30 metingen doen. Elke keer ligt de nieuwe waarde in de buurt van de
oude waarde, dit is onze verwachtingswaarde. Visualisatie van data is een belangrijke stap in de
statistische analyse.
Koekjes
0.8
0.7
0.6
Kans op voorkomen
0.5
0.4
Chocolade
0.3
Citroen
0.2
0.1
0
0 1 2 3 4 5 6
Diameter (cm)
Figuur 1: Normaal verdeling van de diameter van chocolade en citroen koekjes.
We willen bewijzen dat er een verschil is in diameter van chocolade koekjes en citroen
koekjes. We zien dat de pieken op verschillende punten liggen, maar we kunnen geen
uitspraken doen over een grafiek. We hebben de statistieken nodig van de steekproef.
Omdat we niet alle koekjes meten, maar een klein deel (de steekproef) hebben we 2
onzekerheden:
- De onzekerheid van spreiding, zoals eerder genoemd.
- De onzekerheid dat we niet zeker weten dat onze steekproef de werkelijke populatie
(alle koekjes) benaderd.
Statistiek is de methode in de wetenschap die we gebruiken om:
- Informatie te halen uit waarnemingen die voor een deel voortkomen uit random processen.
- De onzekerheid in onze uitspraken (die gebaseerd zijn op waarnemingen) aan te tonen.
- Via een bepaalde methode een experimenteel ontwerp bepalen, zoals het kiezen van een
steekproef.
Spreiding is het verschil tussen data wanneer je bv elke keer iets meet (doorsnede van een koekje) en
elke keer het rond de 3 cm ligt maar niet elke keer exact 3 cm.
Waar komt de spreiding (variance) in onze data vandaan?
- Systematische fouten: zoals meetfouten en interne ruis van sensoren
- Confounding: door veranderingen in experimentele condities die we niet weten bv de bron van het
materiaal kan een extra spreiding veroorzaken.
- Willekeurige fout: puur random gedrag van het systeem zelf. Kleine mutaties in de data.
Er is altijd een spreiding en dus onzekerheid in de data. Hoe groter de spreiding is, hoe vaker een
meting opnieuw moet worden gedaan.
Nu gaan we voor elk koekje 30 metingen doen. Elke keer ligt de nieuwe waarde in de buurt van de
oude waarde, dit is onze verwachtingswaarde. Visualisatie van data is een belangrijke stap in de
statistische analyse.
Koekjes
0.8
0.7
0.6
Kans op voorkomen
0.5
0.4
Chocolade
0.3
Citroen
0.2
0.1
0
0 1 2 3 4 5 6
Diameter (cm)
Figuur 1: Normaal verdeling van de diameter van chocolade en citroen koekjes.
We willen bewijzen dat er een verschil is in diameter van chocolade koekjes en citroen
koekjes. We zien dat de pieken op verschillende punten liggen, maar we kunnen geen
uitspraken doen over een grafiek. We hebben de statistieken nodig van de steekproef.
Omdat we niet alle koekjes meten, maar een klein deel (de steekproef) hebben we 2
onzekerheden:
- De onzekerheid van spreiding, zoals eerder genoemd.
- De onzekerheid dat we niet zeker weten dat onze steekproef de werkelijke populatie
(alle koekjes) benaderd.