Statestiek is de methode in de wetenschap die we gebruiken om:
- Informatie te onttrekken uit waarnemingen welke voor een deel voortkomen uit willekeurige
processen.
- De onzekerheid in onze uitspraken, die gebaseerd zijn op waarnemingen, aan te duiden.
- Via een bepaalde methode een experimenteel ontwerp te bepalen, zoals het kiezen van
een steekproef.
Waar komt de spreiding (variance) in onze data vandaan?
- Systematische fouten: zoals meetfouten en interne ruis van sensoren
- Confounding: door veranderingen in experimentele condities waarvan we niet op de hoogte
zijn bv de bron van het materiaal kan een extra spreiding veroorzaken.
- Willekeurige fout: puur random gedrag van het systeem zelf. Kleine mutaties in de data.
Er zijn 2 soorten onzekerheden bij data:
- De onzekerheid dat er spreiding in de data zit.
- De onzekerheid dat we met onze steekproef schatting de werkelijke waarde van de
populatie niet halen.
In statistiek en kansrekening gebruiken we theoretische of empirische waarden welke deze
onzekerheden een getal kunnen geven in termen van kansen. De belangrijkste voor
statistiek 1 zijn:
SE = Standaard error. Dit is de spreiding tussen de gemiddeldes als je van 1 populatie
telkens een nieuwe steekproef het gemiddelde berekend. De SE is een theoretische
constructie.
Voor een testbare hypothese gebruiken we de null-hypothese. Deze is vaak een ontkenning
van de werk hypothese door het bestaan van een effect of verschil te ontkennen. Erna
moeten we een test statistiek verzinnen die de H0 kan testen in termen van onzekerheid en
kansen. Hiervoor vergelijken we het gemiddelde van bron A en bron B. Om rekening te
houden met de onzekerheid van de schatting van de gemiddelde wordt de volgende formule
gebruikt.
De t is een maat voor de grote van het waargenomen verschil tussen de gemiddelde ten
opzichte van de betrouwbaarheid van de schattingen van de gemiddelden SE.
Vuistregel: Als de t waard groter is dan 2.2, dan verwerpen we de null-hypothese.
Naast de SE kunnen we ons vertrouwen in de schatting ook op een interval uitdrukken, het
zogenaamde 95% betrouwbaarheidsinterval.
- Informatie te onttrekken uit waarnemingen welke voor een deel voortkomen uit willekeurige
processen.
- De onzekerheid in onze uitspraken, die gebaseerd zijn op waarnemingen, aan te duiden.
- Via een bepaalde methode een experimenteel ontwerp te bepalen, zoals het kiezen van
een steekproef.
Waar komt de spreiding (variance) in onze data vandaan?
- Systematische fouten: zoals meetfouten en interne ruis van sensoren
- Confounding: door veranderingen in experimentele condities waarvan we niet op de hoogte
zijn bv de bron van het materiaal kan een extra spreiding veroorzaken.
- Willekeurige fout: puur random gedrag van het systeem zelf. Kleine mutaties in de data.
Er zijn 2 soorten onzekerheden bij data:
- De onzekerheid dat er spreiding in de data zit.
- De onzekerheid dat we met onze steekproef schatting de werkelijke waarde van de
populatie niet halen.
In statistiek en kansrekening gebruiken we theoretische of empirische waarden welke deze
onzekerheden een getal kunnen geven in termen van kansen. De belangrijkste voor
statistiek 1 zijn:
SE = Standaard error. Dit is de spreiding tussen de gemiddeldes als je van 1 populatie
telkens een nieuwe steekproef het gemiddelde berekend. De SE is een theoretische
constructie.
Voor een testbare hypothese gebruiken we de null-hypothese. Deze is vaak een ontkenning
van de werk hypothese door het bestaan van een effect of verschil te ontkennen. Erna
moeten we een test statistiek verzinnen die de H0 kan testen in termen van onzekerheid en
kansen. Hiervoor vergelijken we het gemiddelde van bron A en bron B. Om rekening te
houden met de onzekerheid van de schatting van de gemiddelde wordt de volgende formule
gebruikt.
De t is een maat voor de grote van het waargenomen verschil tussen de gemiddelde ten
opzichte van de betrouwbaarheid van de schattingen van de gemiddelden SE.
Vuistregel: Als de t waard groter is dan 2.2, dan verwerpen we de null-hypothese.
Naast de SE kunnen we ons vertrouwen in de schatting ook op een interval uitdrukken, het
zogenaamde 95% betrouwbaarheidsinterval.