Hoorcollege 1 Epidemiolgie & Biostatistiek 09-09-2021
Kennisclips
T-toetsen
- Uitkomsten zijn kwantitatief
- Gemiddelde van steekproef en standaardafwijking staan model voor
populatieparameter
- Gemiddelde moet worden beschouwd als trekking uit normale verdeling
Conceptuele gedachten achter t-toetsen
- Waarden x en sd zijn onafhankelijke van elkaar
- X berekend: dit zegt niks over waarde van de standaardafwijking
- Vanwege dubbele onzekerheid maken we gebruik van t-verdeling
Aantal vrijheidsgraden bepaalt in hoeverre t-verdeling lijkt op z-verdeling
1-steekproef t-toets (one sample t-test)
- Je vergelijkt uitkomst met normwaarde
- Normwaarde staat onder H0
- Het onderzoek betreft een transversal cohort
- Centrale vraag: hoe verhoudt situatie zich in vergelijking tot norm
Voorwaarden:
- Gegevens zijn onderling onafhankelijk -> dus niet gegroepeerd
Toetsingsgrootheid
- Maat waarmee we meten hoeveel onze bevindingen afwijken van de verwachting
onder H0
- In dit geval is toetsingsgrootheid t
- Resultaat is standaarddeviaties binnen de t-verdeling
Betrouwbaarheidsinterval
- Met dezelfde informatie uit de steekproef ook een BI worden geconstrueerd
Gepaarde t-toets
- Vergelijk twee waarnemingen aan dezelfde eenheid met elkaar
- Vanwege deze mogelijkheid passend bij prospectieve studie
Voorwaarden aan gebruik
- Eenheden zijn onderling onafhankelijk-> niet gegroepeerd
- Waarnemingen zijn wel afhankelijk
- Gemiddelde van verschilmetingen is normaal verdeeld
- In meeste gevallen toetst een gepaarde t-toets geen verschil
,2-steekproef t-toets (independent samples t-test)
- Vergelijk je twee groepen met elkaar
- Transversaal cohort
Wat is het verschil in bloeddruk tussen rokers en niet-rokers
- Patiënt-controleonderzoek
Verschilt het historisch alcoholgebruik tussen mensen met coloncarcinoom en
leeftijdsgenoten zonder
- Prospectief onderzoek/ experimenteel onderzoek
Voorwaarden t-toets
- Eenheden zijn binnen twee groepen onderling onafhankelijk
- Gemiddelde van beide groepen is Normaal verdeeld
- Voro de pooled variance t-test; beide groepen zijn getrokken uit populaties met
identieke spreiding
- Wanneer 2 steekproef t-toets op verschilscores doen: dan zijn de verschilscores
onafhankelijk van meetwaarde op t=0
Homogene variantie
- Aanname is dat bemonsterde populaties precies dezelfde spreiding hebben
Heterogene variantie
- Er is geen uitgangspunt
Toetsingsgrootheid
- In noemer staat spreidingsmaat voor gevonden verschil
Daarin worden de twee sd’s van afzonderlijke steekproeven gewogen tot 1
standaardfout.
Vrijheidsgraden worden anders bepaald
- Homogeen= df= N1+N2 -2
- Heterogeen: ingewikkelde berekening waarin df kleiner wordt naarmate het verschil
in de spreiding tussen de onderzoeksgroepen toeneemt.
Lineaire regressie
- Analysetechniek; 1 of meerdere/ onafhankelijke variabelen relateren aan
afhankelijke variabele (uitkomstvariabele)
- Lijn bepalen: hellingshoek van lijn bepalen -> dit is de regressiecoëfficiënt.
- De regressiecoëfficiënt is de b1: (X1-Xgem) (Y1-Ygem) / (X1-Xgem)
- Voor elke observatie van Y en X wordt het verschil ten opzichte van het gemiddelde
berekend. De verschillen worden met elkaar vermenigvuldigd en sommeren we tot
slot.
- De regressiecoëfficiënt geeft de hoeveelheid verandering Y weer voor elke eenheid X.
Dus bijvoorbeeld de bloeddruk stijgt met 3.592 per 1 punt BMI toename.
- De tweede schatter in de regressievergelijking is het intercept/ de B0.
Dit is de geschatte waarde van Y als de waarde van X 0 is. Het is een startwaarde
die voor iedereen geldt.
, Regressievergelijking
- Voor iedere observatie wordt het verschil bepaald tussen elke individuele waarde en
de door het model geschatte waarde.
- Net als bij de totale variantie worden de verschillen gekwadrateerd en sommeren we
deze vervolgens: E= (Y1en Ygem)^2
Residuen
- De voorspelde waarde voor bloeddruk kunnen we voor elke observatie berekenen
door de regressievergelijking in te vullen voor het betreffende BMI.
Verklaarde variantie
- Ook wel R-squared: de fractie van de variantie die de best passende lijn verklaart ->
gedeelte van de variantie in ons model dat we kunnen verklaren door de
determinanten die we hebben opgenomen in ons model.
- R2= totale kwadratensom- residue kwadratensom/ totale kwadratensom
Voorwaarden
1. Lineairiteit op de uitkomst
2. Homogeniteit van varianties (homoscedasticiteit); langs de hele regressielijn moeten
de varianties ongeveer gelijk zijn.
3. Normaliteit van de residuen; als we alle residuen tot de regressielijn in een histogram
plaatsen moeten deze normaal verdeeld zijn.
4. Onafhankelijkheid van de observaties: waarborg je door het onderzoeksdesign.
Continue data
- Scatterplot
- Graphs -> legacy dialogs -> scatter/dot -> simple scatter -> nieuw venster -> Y axis en
X axis
- Bloeddruk op Yaxis
- BMI op X axis
Lineaire regressie uitvoeren
- Analyze > regression -> afhankelijke variabele= bloeddruk -> onafhankelijke variabele
= BMI -> Opties: Confidence interval 95% -> plots: Histogram, normal probability plot.
- R-square; portie verklaarde variantie ten opzichte van 0 model -> getal tussen 0 en 1 -
> wordt een percentage.
ANOVA
- Som square
- Totale som = totale variantie in bloeddruk
- Regression sum of square: sommen die worden verklaard door BMI
- Aantal vrijheidsgraden
- Sum of square kan worden gedeeld door aantal vrijheidsgraden -> dit leidt tot de
mean square -> kunnen weer door elkaar worden gedeeld -> geeft de F-waarde
- Regressie mean square delen door residual mean square = F-waarde
- Hoe groter F-waarde -> hoe sterker
Kennisclips
T-toetsen
- Uitkomsten zijn kwantitatief
- Gemiddelde van steekproef en standaardafwijking staan model voor
populatieparameter
- Gemiddelde moet worden beschouwd als trekking uit normale verdeling
Conceptuele gedachten achter t-toetsen
- Waarden x en sd zijn onafhankelijke van elkaar
- X berekend: dit zegt niks over waarde van de standaardafwijking
- Vanwege dubbele onzekerheid maken we gebruik van t-verdeling
Aantal vrijheidsgraden bepaalt in hoeverre t-verdeling lijkt op z-verdeling
1-steekproef t-toets (one sample t-test)
- Je vergelijkt uitkomst met normwaarde
- Normwaarde staat onder H0
- Het onderzoek betreft een transversal cohort
- Centrale vraag: hoe verhoudt situatie zich in vergelijking tot norm
Voorwaarden:
- Gegevens zijn onderling onafhankelijk -> dus niet gegroepeerd
Toetsingsgrootheid
- Maat waarmee we meten hoeveel onze bevindingen afwijken van de verwachting
onder H0
- In dit geval is toetsingsgrootheid t
- Resultaat is standaarddeviaties binnen de t-verdeling
Betrouwbaarheidsinterval
- Met dezelfde informatie uit de steekproef ook een BI worden geconstrueerd
Gepaarde t-toets
- Vergelijk twee waarnemingen aan dezelfde eenheid met elkaar
- Vanwege deze mogelijkheid passend bij prospectieve studie
Voorwaarden aan gebruik
- Eenheden zijn onderling onafhankelijk-> niet gegroepeerd
- Waarnemingen zijn wel afhankelijk
- Gemiddelde van verschilmetingen is normaal verdeeld
- In meeste gevallen toetst een gepaarde t-toets geen verschil
,2-steekproef t-toets (independent samples t-test)
- Vergelijk je twee groepen met elkaar
- Transversaal cohort
Wat is het verschil in bloeddruk tussen rokers en niet-rokers
- Patiënt-controleonderzoek
Verschilt het historisch alcoholgebruik tussen mensen met coloncarcinoom en
leeftijdsgenoten zonder
- Prospectief onderzoek/ experimenteel onderzoek
Voorwaarden t-toets
- Eenheden zijn binnen twee groepen onderling onafhankelijk
- Gemiddelde van beide groepen is Normaal verdeeld
- Voro de pooled variance t-test; beide groepen zijn getrokken uit populaties met
identieke spreiding
- Wanneer 2 steekproef t-toets op verschilscores doen: dan zijn de verschilscores
onafhankelijk van meetwaarde op t=0
Homogene variantie
- Aanname is dat bemonsterde populaties precies dezelfde spreiding hebben
Heterogene variantie
- Er is geen uitgangspunt
Toetsingsgrootheid
- In noemer staat spreidingsmaat voor gevonden verschil
Daarin worden de twee sd’s van afzonderlijke steekproeven gewogen tot 1
standaardfout.
Vrijheidsgraden worden anders bepaald
- Homogeen= df= N1+N2 -2
- Heterogeen: ingewikkelde berekening waarin df kleiner wordt naarmate het verschil
in de spreiding tussen de onderzoeksgroepen toeneemt.
Lineaire regressie
- Analysetechniek; 1 of meerdere/ onafhankelijke variabelen relateren aan
afhankelijke variabele (uitkomstvariabele)
- Lijn bepalen: hellingshoek van lijn bepalen -> dit is de regressiecoëfficiënt.
- De regressiecoëfficiënt is de b1: (X1-Xgem) (Y1-Ygem) / (X1-Xgem)
- Voor elke observatie van Y en X wordt het verschil ten opzichte van het gemiddelde
berekend. De verschillen worden met elkaar vermenigvuldigd en sommeren we tot
slot.
- De regressiecoëfficiënt geeft de hoeveelheid verandering Y weer voor elke eenheid X.
Dus bijvoorbeeld de bloeddruk stijgt met 3.592 per 1 punt BMI toename.
- De tweede schatter in de regressievergelijking is het intercept/ de B0.
Dit is de geschatte waarde van Y als de waarde van X 0 is. Het is een startwaarde
die voor iedereen geldt.
, Regressievergelijking
- Voor iedere observatie wordt het verschil bepaald tussen elke individuele waarde en
de door het model geschatte waarde.
- Net als bij de totale variantie worden de verschillen gekwadrateerd en sommeren we
deze vervolgens: E= (Y1en Ygem)^2
Residuen
- De voorspelde waarde voor bloeddruk kunnen we voor elke observatie berekenen
door de regressievergelijking in te vullen voor het betreffende BMI.
Verklaarde variantie
- Ook wel R-squared: de fractie van de variantie die de best passende lijn verklaart ->
gedeelte van de variantie in ons model dat we kunnen verklaren door de
determinanten die we hebben opgenomen in ons model.
- R2= totale kwadratensom- residue kwadratensom/ totale kwadratensom
Voorwaarden
1. Lineairiteit op de uitkomst
2. Homogeniteit van varianties (homoscedasticiteit); langs de hele regressielijn moeten
de varianties ongeveer gelijk zijn.
3. Normaliteit van de residuen; als we alle residuen tot de regressielijn in een histogram
plaatsen moeten deze normaal verdeeld zijn.
4. Onafhankelijkheid van de observaties: waarborg je door het onderzoeksdesign.
Continue data
- Scatterplot
- Graphs -> legacy dialogs -> scatter/dot -> simple scatter -> nieuw venster -> Y axis en
X axis
- Bloeddruk op Yaxis
- BMI op X axis
Lineaire regressie uitvoeren
- Analyze > regression -> afhankelijke variabele= bloeddruk -> onafhankelijke variabele
= BMI -> Opties: Confidence interval 95% -> plots: Histogram, normal probability plot.
- R-square; portie verklaarde variantie ten opzichte van 0 model -> getal tussen 0 en 1 -
> wordt een percentage.
ANOVA
- Som square
- Totale som = totale variantie in bloeddruk
- Regression sum of square: sommen die worden verklaard door BMI
- Aantal vrijheidsgraden
- Sum of square kan worden gedeeld door aantal vrijheidsgraden -> dit leidt tot de
mean square -> kunnen weer door elkaar worden gedeeld -> geeft de F-waarde
- Regressie mean square delen door residual mean square = F-waarde
- Hoe groter F-waarde -> hoe sterker