Statistiek samenvatting oog voor impact en biostatistiek
Inhoudsopgave
Terugblik statistiek....................................................................................................................................................1
Correlatie...................................................................................................................................................................2
Lineaire regressie......................................................................................................................................................3
Simpele lineaire regressie.....................................................................................................................................3
Multipele lineaire regressie..................................................................................................................................8
Logistisch regressie model..................................................................................................................................13
T-toetsen.................................................................................................................................................................13
1-weg ANOVA..........................................................................................................................................................15
Kalibratielijnen....................................................................................................................................................18
2-weg ANOVA..........................................................................................................................................................19
R commando’s.........................................................................................................................................................20
Terugblik statistiek
Conclusies in wetenschappelijk onderzoek zijn altijd in meer of mindere mate onzeker
vanwege:
Biologische variabiliteit tussen individuen
Variabiliteit tussen steekproeven
Experimentele variabiliteit
o Systematisch en toevallige variatie systematische variatie/systematische
afwijking kan door bijvoorbeeld een verkeerd geijkt meetinstrument leiden tot
bias. Systematische afwijkingen in een steekproef kunnen ontstaan door
informatie te verzamelen vanuit een niet passende populatie (bijvoorbeeld een
verkeerde leeftijdsgroep)
Variabiliteit zullen we zo veel mogelijk te verklaren door onderliggende factoren. Wat er aan
onverklaarbare variabiliteit overblijft zullen we kwantificeren.
Locatie maten:
Gemiddelde
Mediaan
1e kwartiel (Q1)
3e kwartiel (Q3)
Spreidingsmaten:
Standaarddeviatie
∑ (x−μ) 2
SD van de populatie ()
√∑ n
SD van de steekproef (s)
√ (x−μ)2
n−1
, σ
SD van de ‘distribution of the means’ (SEM)
√n
Puntschattingen en intervalschattingen :
𝑥̅ is een puntschatting van 𝜇
Een puntschatting geeft niets weer over de onzekerheid van de schatting
Wanneer we meer steekproeven nemen, dan weten we dat de puntschatting van
steekproef tot steekproef zal verschillen
Om deze onzekerheid weer te geven maken we gebruik van een intervalschatting
Deze intervalschatting baseren we op de kansverdeling van de puntschatter
Wanneer we veronderstellen dat de te onderzoeken variabele normaal verdeeld is, dan
baseren we de intervalsschatting voor het steekproefgemiddelde dus op de
kansverdeling van het steekproefgemiddelde.
Wanneer x normaal verdeeld is, dan geldt als kansverdeling voor 𝑥̅
sigma
: x̅ N (μ , )
wortel n
Bij statistische analyse wordt de 4 stappen procedure van Baldi & Moore gebruikt.
H0 wordt verworpen als:
t ≥ k of t ≤ -k
p≤
De waarde onder H0 niet in het BHI ligt
Correlatie
Bij correlatie kijk je alleen naar een verband tussen twee variabelen.
De correlatiecoëfficiënt is gelijk aan r = (-/+ afhankelijk van r)√𝑅2
, De Pearsons correlatiecoëfficiënt geeft de lineaire samenhang tussen 2 continue variabelen.
Het wordt gebruikt om de sterkte van een verband weer te geven. De coëfficiënt geeft een
getal tussen de -1 en de +1 waarbij de + en – de richting van het verband aangeven:
+ als de ene variabele toeneemt, neemt de andere ook toe
- als de ene variabele toeneemt, neemt de andere af
Heel zwak 0.50 > correlatiecoëfficiënt > 0.70 heel sterk
Lineaire regressie
Simpele lineaire regressie
Bij simpele lineaire regressie kijk je of variabele y afhangt van variabele x.
Simpele lineaire regressie is een lineair model voor y als een functie van x. Met als doel de
vergelijking van de lijn te schatten, y voorspellen op basis van lineaire relatie met x en het
voorspellen van onzekerheden op basis van het 95% BHI.
Formule van de lineaire regressielijn: y=β 0 + β 1 x + epsilon
y = afhankelijke variabele (uitkomst)
x = onafhankelijke variabele (determinant)
β 0 en β 1 = parameters van de lijn, meer specifiek de populatie waarden van deze parameters.
β 0 = asafsnede of intercept
β 1 = de richtingscoëfficiënt
Epsilon = de variantie. Dit kan gezien worden als het feit dat iedereen met dezelfde x-waarde
niet dezelfde y-waarde heeft, hier ziet variatie tussen. Er wordt gesteld dat proefpersonen niet
aan elkaar gerelateerd zijn (epsilon is onafhankelijk voor I = 1, …, n). Verder stellen we dat
de residuen normaal verdeeld zijn met een gemiddelde 0 en een variantie van sigma2. Dit kan
weergegeven worden als: epsilon ~ N(0 ; sigma2). Hierbij wordt ervanuit gegaan dat sigma
voor iedereen gelijk is. Bij voorspellingen hoeft epsilon niet meegenomen worden.
β 0 en β 1 kunnen geschat worden met behulp van de kleinste kwadraten methode:
Met behulp van deze methode kan de lijn bepaald worden waarbij de ‘rode lijntjes’ in
onderstaande grafiek gekwadrateerd en opgeteld zo klein mogelijk is. In deze methode zit
geen bias, het is dus een heel betrouwbare methode. Het resultaat wordt de SS (sum of
squares) residual, res of error genoemd. Onderstaande formule omvat het bovenstaande:
Inhoudsopgave
Terugblik statistiek....................................................................................................................................................1
Correlatie...................................................................................................................................................................2
Lineaire regressie......................................................................................................................................................3
Simpele lineaire regressie.....................................................................................................................................3
Multipele lineaire regressie..................................................................................................................................8
Logistisch regressie model..................................................................................................................................13
T-toetsen.................................................................................................................................................................13
1-weg ANOVA..........................................................................................................................................................15
Kalibratielijnen....................................................................................................................................................18
2-weg ANOVA..........................................................................................................................................................19
R commando’s.........................................................................................................................................................20
Terugblik statistiek
Conclusies in wetenschappelijk onderzoek zijn altijd in meer of mindere mate onzeker
vanwege:
Biologische variabiliteit tussen individuen
Variabiliteit tussen steekproeven
Experimentele variabiliteit
o Systematisch en toevallige variatie systematische variatie/systematische
afwijking kan door bijvoorbeeld een verkeerd geijkt meetinstrument leiden tot
bias. Systematische afwijkingen in een steekproef kunnen ontstaan door
informatie te verzamelen vanuit een niet passende populatie (bijvoorbeeld een
verkeerde leeftijdsgroep)
Variabiliteit zullen we zo veel mogelijk te verklaren door onderliggende factoren. Wat er aan
onverklaarbare variabiliteit overblijft zullen we kwantificeren.
Locatie maten:
Gemiddelde
Mediaan
1e kwartiel (Q1)
3e kwartiel (Q3)
Spreidingsmaten:
Standaarddeviatie
∑ (x−μ) 2
SD van de populatie ()
√∑ n
SD van de steekproef (s)
√ (x−μ)2
n−1
, σ
SD van de ‘distribution of the means’ (SEM)
√n
Puntschattingen en intervalschattingen :
𝑥̅ is een puntschatting van 𝜇
Een puntschatting geeft niets weer over de onzekerheid van de schatting
Wanneer we meer steekproeven nemen, dan weten we dat de puntschatting van
steekproef tot steekproef zal verschillen
Om deze onzekerheid weer te geven maken we gebruik van een intervalschatting
Deze intervalschatting baseren we op de kansverdeling van de puntschatter
Wanneer we veronderstellen dat de te onderzoeken variabele normaal verdeeld is, dan
baseren we de intervalsschatting voor het steekproefgemiddelde dus op de
kansverdeling van het steekproefgemiddelde.
Wanneer x normaal verdeeld is, dan geldt als kansverdeling voor 𝑥̅
sigma
: x̅ N (μ , )
wortel n
Bij statistische analyse wordt de 4 stappen procedure van Baldi & Moore gebruikt.
H0 wordt verworpen als:
t ≥ k of t ≤ -k
p≤
De waarde onder H0 niet in het BHI ligt
Correlatie
Bij correlatie kijk je alleen naar een verband tussen twee variabelen.
De correlatiecoëfficiënt is gelijk aan r = (-/+ afhankelijk van r)√𝑅2
, De Pearsons correlatiecoëfficiënt geeft de lineaire samenhang tussen 2 continue variabelen.
Het wordt gebruikt om de sterkte van een verband weer te geven. De coëfficiënt geeft een
getal tussen de -1 en de +1 waarbij de + en – de richting van het verband aangeven:
+ als de ene variabele toeneemt, neemt de andere ook toe
- als de ene variabele toeneemt, neemt de andere af
Heel zwak 0.50 > correlatiecoëfficiënt > 0.70 heel sterk
Lineaire regressie
Simpele lineaire regressie
Bij simpele lineaire regressie kijk je of variabele y afhangt van variabele x.
Simpele lineaire regressie is een lineair model voor y als een functie van x. Met als doel de
vergelijking van de lijn te schatten, y voorspellen op basis van lineaire relatie met x en het
voorspellen van onzekerheden op basis van het 95% BHI.
Formule van de lineaire regressielijn: y=β 0 + β 1 x + epsilon
y = afhankelijke variabele (uitkomst)
x = onafhankelijke variabele (determinant)
β 0 en β 1 = parameters van de lijn, meer specifiek de populatie waarden van deze parameters.
β 0 = asafsnede of intercept
β 1 = de richtingscoëfficiënt
Epsilon = de variantie. Dit kan gezien worden als het feit dat iedereen met dezelfde x-waarde
niet dezelfde y-waarde heeft, hier ziet variatie tussen. Er wordt gesteld dat proefpersonen niet
aan elkaar gerelateerd zijn (epsilon is onafhankelijk voor I = 1, …, n). Verder stellen we dat
de residuen normaal verdeeld zijn met een gemiddelde 0 en een variantie van sigma2. Dit kan
weergegeven worden als: epsilon ~ N(0 ; sigma2). Hierbij wordt ervanuit gegaan dat sigma
voor iedereen gelijk is. Bij voorspellingen hoeft epsilon niet meegenomen worden.
β 0 en β 1 kunnen geschat worden met behulp van de kleinste kwadraten methode:
Met behulp van deze methode kan de lijn bepaald worden waarbij de ‘rode lijntjes’ in
onderstaande grafiek gekwadrateerd en opgeteld zo klein mogelijk is. In deze methode zit
geen bias, het is dus een heel betrouwbare methode. Het resultaat wordt de SS (sum of
squares) residual, res of error genoemd. Onderstaande formule omvat het bovenstaande: