SAMENVATTING STATISTIEK
Algemeen
Dichotome (ordinale= 2 categorieën; man/vrouw) en categoriale (nominale= oplopende
categorieën; nooit/zelden/vaak) variabelen.
Continue variabele
Een frequentietabel is niet handig dus worden er voor grote hoeveelheden continue
variabelen vaak samenvattingsmaten gebruikt.
Gemiddelde: som van alle observaties/ aantal observaties
Variantie: Som van alle verschillen ten opzichte van het midden gekwadrateerd /n-1
Standaarddeviatie: kan gezien worden als het gemiddelde verschil tussen de observaties en
het gemiddelde. De wortel van de variantie.
- Dichotome variabele: Binomiale kansverdeling
- Continue variabele: Normale kansverdeling
Normale verdeling
Alle statistische analysetechnieken gaan er bij een continue variabele van uit dat de data
waarmee gewerkt wordt redelijk normaal verdeeld is.
Normale verdeling: Gemiddelde is de mediaan en alle geobserveerde waarden liggen tussen
plus of min tweemaal de standaarddeviatie.
1. Observeren histogram
2. Mediaan en gemiddelde vergelijken
3. Vergelijken gemiddelde en de SD (bij variabele met mogelijkheid op enkel positieve
waarden)
Scheef-rechts verdeeld /positive skew : Meest voorkomende scheve verdeling. Het
merendeel van de populatie heeft ‘normale’ waarden, maar een deel van de populatie heeft
(extreem) hoge waarden. Bijvoorbeeld bij bloedparameters. Gemiddelde is groter dan de
mediaan. Ook is de standaarddeviatie niet juist, daarom wordt hierbij vaak de mediaan en
het 1e en 3e kwartiel weergegeven.
Links-scheef verdeeld/ negative skew: Vaak tijds gerelateerd. Een deel van de populatie
heeft (extreem) lage waarden. Gemiddelde kleiner dan de mediaan.
,Schatten en toetsen
Schatten: Het schatten van ‘onzekerheid’ van het gevonden resultaat: In hoeverre zijn de
resultaten uit het onderzoek een goede weergave van werkelijkheid?
Toetsen: Kansberekening, hoe groot is de kans op een bepaalde gevonde waarde?
Twee aspecten spelen hierbij een grote rol
1. Grootte van de steekproef
Hoe groter de steekproef, des te makkelijker zijn de resultaten te generaliseren naar
de werkelijke populatie.
2. Spreiding (heterogeniteit) in de steekproef
Weergegeven met de SD. Hoe groter de SD, hoe minder ‘betrouwbaar’ de gevonden
waardes zijn en hoe lastiger het is om deze waarden te vertalen naar de populatie.
Deze twee aspecten komen samen in de standard error of the mean
Dit is de standaardfout van het gemiddelde en wordt berekend door de SD te delen door de
wortel van het aantal proefpersonen uit de steekproef
Normale kansverdeling: Hoe groot is de kans om een waarde te vinden groter/kleiner dan
[…]? = kansdichtheid Dit is een bepaald oppervlak onder de normaalverdeling.
Dit oppervlak is niet direct te berekenen, de waarde moet eerst worden gestandaardiseerd.
1. Gemiddelde aftrekken van de waarde waarin we geïnteresseerd zijn
2. Dit verschil delen door de SD
Het verschil tussen het gemiddelde en de desbetreffende waarde wordt nu uitgedrukt in
het aantal standaarddeviaties.
= Z-verdeling, het gemiddelde is hierbij gelijk aan 0 en de SD gelijk aan 1
Deze waarde geeft aan: De kans op deze Z waarde of groter is gelijk aan de kans op
specifieke waarde of groter (dit wordt afgelezen in een tabel)
, Toetsen
Hierbij ben je niet meer geïnteresseerd in een bepaalde waarde, maar in de kans dat er een
bepaalde gemiddelde waarde gevonden zal worden. Omdat het hier gaat om een
gemiddelde, ligt de onzekerheid van het gevonden resultaat niet meer alleen in de SD maar
ook in de grootte van de onderzoekspopulatie. Hierom wordt er in deze situatie niet meer
gesproken van ‘standaarddeviatie’ maar van ‘standaarddeviatie van het gemiddelde’
(standard error of the mean).
Stel je test een medicijn, als het medicijn geen effect heeft is de uitkomstwaarde 0 en bij
wel effect is het gemiddelde 10. Je gaat nu voor de echte populatie er eerst van uit dat het
medicijn geen effect (nulhypothese), heeft en gaat dan berekenen hoe groot de kans is op
een waarde van 10(alternatieve hypothese),, maar omdat het een continue variabele is
bereken je de kans op een waarde van 10 of hoger. → Z-waarde berekenen
Z= (geobserveerd gemiddelde- verwacht gemiddelde)/ SDsteekproef/ √ n steekproef
Waarde opzoeken→ geeft bepaalde kans (p-waarde) en de Z-waarde is hier de
toetsingsgrootheid.
P-waarde geeft aan hoe goed de gevonden waarde past bij de nulhypothese
Hoe lager deze waarde, hoe slechter het onderzoeksresultaat bij de waarde van de
nulhypothese past, dus hoe onwaarschijnlijker de nulhypothese is. Wanneer de p waarde
kleiner is dan 0,05 spreekt men van een statistisch significant effect (in dit geval van de
medicatie). → Nulhypothese verworpen.
Type-1 fout: Onterecht verwerpen van nulhypothese.
Type-2 fout: Aannemen van onjuiste nulhypothese.
Schatten
Betrouwbaarheidsinterval: De werkelijke uitkomst ligt met 95% zekerheid ergens tussen de
aangegeven grenzen.
→ Er wordt een 95% betrouwbaarheids interval gecontrueerd in de normaalverdeling, rond
het gevonden effect.
BI= +/- 1,96 x standard error of the mean (sd/ √ n steekproef )
Algemeen
Dichotome (ordinale= 2 categorieën; man/vrouw) en categoriale (nominale= oplopende
categorieën; nooit/zelden/vaak) variabelen.
Continue variabele
Een frequentietabel is niet handig dus worden er voor grote hoeveelheden continue
variabelen vaak samenvattingsmaten gebruikt.
Gemiddelde: som van alle observaties/ aantal observaties
Variantie: Som van alle verschillen ten opzichte van het midden gekwadrateerd /n-1
Standaarddeviatie: kan gezien worden als het gemiddelde verschil tussen de observaties en
het gemiddelde. De wortel van de variantie.
- Dichotome variabele: Binomiale kansverdeling
- Continue variabele: Normale kansverdeling
Normale verdeling
Alle statistische analysetechnieken gaan er bij een continue variabele van uit dat de data
waarmee gewerkt wordt redelijk normaal verdeeld is.
Normale verdeling: Gemiddelde is de mediaan en alle geobserveerde waarden liggen tussen
plus of min tweemaal de standaarddeviatie.
1. Observeren histogram
2. Mediaan en gemiddelde vergelijken
3. Vergelijken gemiddelde en de SD (bij variabele met mogelijkheid op enkel positieve
waarden)
Scheef-rechts verdeeld /positive skew : Meest voorkomende scheve verdeling. Het
merendeel van de populatie heeft ‘normale’ waarden, maar een deel van de populatie heeft
(extreem) hoge waarden. Bijvoorbeeld bij bloedparameters. Gemiddelde is groter dan de
mediaan. Ook is de standaarddeviatie niet juist, daarom wordt hierbij vaak de mediaan en
het 1e en 3e kwartiel weergegeven.
Links-scheef verdeeld/ negative skew: Vaak tijds gerelateerd. Een deel van de populatie
heeft (extreem) lage waarden. Gemiddelde kleiner dan de mediaan.
,Schatten en toetsen
Schatten: Het schatten van ‘onzekerheid’ van het gevonden resultaat: In hoeverre zijn de
resultaten uit het onderzoek een goede weergave van werkelijkheid?
Toetsen: Kansberekening, hoe groot is de kans op een bepaalde gevonde waarde?
Twee aspecten spelen hierbij een grote rol
1. Grootte van de steekproef
Hoe groter de steekproef, des te makkelijker zijn de resultaten te generaliseren naar
de werkelijke populatie.
2. Spreiding (heterogeniteit) in de steekproef
Weergegeven met de SD. Hoe groter de SD, hoe minder ‘betrouwbaar’ de gevonden
waardes zijn en hoe lastiger het is om deze waarden te vertalen naar de populatie.
Deze twee aspecten komen samen in de standard error of the mean
Dit is de standaardfout van het gemiddelde en wordt berekend door de SD te delen door de
wortel van het aantal proefpersonen uit de steekproef
Normale kansverdeling: Hoe groot is de kans om een waarde te vinden groter/kleiner dan
[…]? = kansdichtheid Dit is een bepaald oppervlak onder de normaalverdeling.
Dit oppervlak is niet direct te berekenen, de waarde moet eerst worden gestandaardiseerd.
1. Gemiddelde aftrekken van de waarde waarin we geïnteresseerd zijn
2. Dit verschil delen door de SD
Het verschil tussen het gemiddelde en de desbetreffende waarde wordt nu uitgedrukt in
het aantal standaarddeviaties.
= Z-verdeling, het gemiddelde is hierbij gelijk aan 0 en de SD gelijk aan 1
Deze waarde geeft aan: De kans op deze Z waarde of groter is gelijk aan de kans op
specifieke waarde of groter (dit wordt afgelezen in een tabel)
, Toetsen
Hierbij ben je niet meer geïnteresseerd in een bepaalde waarde, maar in de kans dat er een
bepaalde gemiddelde waarde gevonden zal worden. Omdat het hier gaat om een
gemiddelde, ligt de onzekerheid van het gevonden resultaat niet meer alleen in de SD maar
ook in de grootte van de onderzoekspopulatie. Hierom wordt er in deze situatie niet meer
gesproken van ‘standaarddeviatie’ maar van ‘standaarddeviatie van het gemiddelde’
(standard error of the mean).
Stel je test een medicijn, als het medicijn geen effect heeft is de uitkomstwaarde 0 en bij
wel effect is het gemiddelde 10. Je gaat nu voor de echte populatie er eerst van uit dat het
medicijn geen effect (nulhypothese), heeft en gaat dan berekenen hoe groot de kans is op
een waarde van 10(alternatieve hypothese),, maar omdat het een continue variabele is
bereken je de kans op een waarde van 10 of hoger. → Z-waarde berekenen
Z= (geobserveerd gemiddelde- verwacht gemiddelde)/ SDsteekproef/ √ n steekproef
Waarde opzoeken→ geeft bepaalde kans (p-waarde) en de Z-waarde is hier de
toetsingsgrootheid.
P-waarde geeft aan hoe goed de gevonden waarde past bij de nulhypothese
Hoe lager deze waarde, hoe slechter het onderzoeksresultaat bij de waarde van de
nulhypothese past, dus hoe onwaarschijnlijker de nulhypothese is. Wanneer de p waarde
kleiner is dan 0,05 spreekt men van een statistisch significant effect (in dit geval van de
medicatie). → Nulhypothese verworpen.
Type-1 fout: Onterecht verwerpen van nulhypothese.
Type-2 fout: Aannemen van onjuiste nulhypothese.
Schatten
Betrouwbaarheidsinterval: De werkelijke uitkomst ligt met 95% zekerheid ergens tussen de
aangegeven grenzen.
→ Er wordt een 95% betrouwbaarheids interval gecontrueerd in de normaalverdeling, rond
het gevonden effect.
BI= +/- 1,96 x standard error of the mean (sd/ √ n steekproef )