100% de satisfacción garantizada Inmediatamente disponible después del pago Tanto en línea como en PDF No estas atado a nada 4.2 TrustPilot
logo-home
Notas de lectura

Epidemiologie & Biostatistiek III Samenvatting

Puntuación
-
Vendido
10
Páginas
21
Subido en
17-02-2013
Escrito en
2011/2012

Lecture notes of 21 pages for the course Methodologie III at VU

Institución
Grado















Ups! No podemos cargar tu documento ahora. Inténtalo de nuevo o contacta con soporte.

Escuela, estudio y materia

Institución
Estudio
Grado

Información del documento

Subido en
17 de febrero de 2013
Número de páginas
21
Escrito en
2011/2012
Tipo
Notas de lectura
Profesor(es)
Desconocido
Contiene
Todas las clases

Vista previa del contenido

Epidemiologie en biostatistiek III
Herhaling [Jos Twisk]
Typen onderzoek
 Observationeel
o Case-control  retrospectief  selectie cases vergelijken met controles
o Cohort 
 Retrospectief  terugvragen naar determinant (nu bepaalde
gezondheidstoestand meten en dit relateren met vroeger)
 Transversaal  nu (lastig om oorzaak en gevolg weer te geven)
 Prospectief  volgen (kost veel tijd en geld)
 Experimenteel
o Prospectief  effect medicijnen

Vertekening
 Effect modificatie
o Definitie  het effect is anders voor verschillende groepen
 Confounding
o Definitie  het gevonden effect is (gedeeltelijk) veroorzaakt door een andere
variabele, de confounder
o Twee punten nodig voor confouding:
 Samenhangend met de uitkomst
 Samenhangend met de determinant
o Effecten  onderschatting of overschatting wanneer je rekening houd met
confounding
 Mediator
o Dit ligt in het causale pad van oorzaak en gevolg
o Zelfde als confounder
o Bijvoorbeeld: roken  bloeddruk omhoog  MI
o Andere effect interpretatie voor nodig
o Drie punten nodig voor confounding:
 Samenhangend met de uitkomst
 Samenhangend met de determinant
 Wel in causale pad

Continu Dichotoom Dichotoom+tijd
2 groepen Methode: Methode: Methode
Onafhankelijke t- Chi-kwadraat Log Rank Toets
toets toets

Je bent dan geïnteresseerd in een Effectmaat: Effectmaat:
verband tussen twee variabelen -verschil in -RR/RV/OR
gemiddelden
> 2 groepen Methode: Methode: Methode:
ANOVA Chi-kwadraat Log Rank Toets
Je bent dan geïnteresseerd in een toets
verband tussen meerdere variabelen Effectmaat:
-verschil in Effectmaat:
gemiddelden -RR/RV/OR
De relatie tussen een Methode: Methode: Methode:
continue/dichotome/dichotome+tijd- Lineaire regressie Logistische Cox-regressie
uitkomstvariabele en andere regressie
variabele Effectmaat: Effectmaat:
(2 groepen/meer dan 2 groepen) -Regressie Effectmaat: HR (hazard)
Je gaat dan een verband voorspellen coëfficiënt -OR
(lineair verband/kwadratisch verband)




1

,Keuze voor een statistische techniek
 Onderzoeksvraag
 Verdeling van de uitkomstvariabele
o Continu (alles mogelijk) of discreet (hele getallen)
o Dichotoom (0 en 1)
o Dichotoom + tijd (survival)

Continue uitkomstvariabele
 1) Descriptive statistics  eerste stap bij analyse
o Gaat over de uitkomstvariabele die je hebt gemeten
o Gemiddelde en SD (kleine spreiding  grotere betrouwbaarheid)
 2) Analyses
o Methode:
 Analyseren van het verschil tussen de voormeting en de nameting
(bijvoorbeeld)
 Vergelijken van verschilscores
o T-test  vergelijking gemiddelde groepen (mean difference)
 Hoort een betrouwbaarheidsinterval bij
 Grootte hangt af van het aantal mensen  meer mensen = kleiner
betrouwbaarheidsinterval
 Spreiding  hoe groter, des te groter het betrouwbaarheidsinterval
 P-waarde  kleiner dan 0.05 = significant
 Testen h0 (h0 = er is geen verschil)
 Nadeel: je kan niks met confounding/effectmodificatie
 Aanname
o De te analyseren variabele is normaal verdeeld
o Wat als dit niet het geval is?
 Dan zegt het gemiddelde niet zo veel (komt door uitbijters), wanneer je dit
vergelijkt dan bereken je meer de uitbijters
o Niet-normaal verdeelde variabelen, oplossing voor scheef naar rechts data:
 Logtransformatie
 Het verschil van 2 gemiddelde van de logaritmes is dan de uitkomst
 Deze kun je terugtransformeren naar je oorspronkelijke data d.m.v. e-
macht  dan wordt het een ratio i.p.v. verschil
 Non-parametrische toetsen
 Wanneer transformatie niet kan
 Dan transformeer je de gegevens in rangnummers en daar doe je
dan uitspraken over, maan dan kom je nooit meer terug naar je
oorspronkelijke data
 Je kan dan alleen een p-waarde berekenen (dus geen effect en
betrouwbaarheidsinterval) met de rangsomtoets/Mann-Whitney toets
 Vergelijken van drie gemiddelde waardes/groepen
o Oftewel: vergelijken van de verschillen tussen de drie groepen
 Toepassen  variantie analyse (maar alleen p-waarde als uitkomst)
 Analyseren van continue determinant en continue uitkomstmaat
o Voorbeeld: in hoeverre is leeftijd geassocieerd met pijnverandering?
o Leeftijd is een continue variabele  geen t-test en geen ANOVA
o 1) Eerst grafiek maken  x-as: determinant(voorspeller/co-variabele), y-as:
uitkomstvariabele
 Je maakt een scatterplot (alle observaties worden in de grafiek geplaatst)
o 2) Analyse: lineaire regressie analyse
 De afstand van de puntjes tot de lijn moeten zo klein mogelijk zijn  die lijn
beschrijft dan het beste de relatie tussen x en y (determinant en
uitkomstvariabele)
 De lijn wordt gekenmerkt door twee dingen:
o Y= b0 + b1 X
o B0 = de waarde van de uitkomst wanneer x = 0
o B1 = is het effect (de waarde als de determinant met 1
verschilt)



2

,  De lineaire regressie coëfficiënt is gelijk aan het verschil in de
uitkomstvariabele wanneer de determinant 1 eenheid verschilt
 Voorbeeld:
 We veronderstellen een lineair verband tussen X en Y
 Pijn verschil= b0 + b1 x leeftijd
 B0 = pijnverschil bij leeftijd 0
 B1 = verschil tussen leeftijd 1 en leeftijd 0, verschil tussen leeftijd 2
en leeftijd 1 etc.
o 3) Confounding en effectmodificatie
 Eerst scatterplot maken
 Dan lineaire regressie analyse  weer een lijn voorspellen
 Y = b0 + b1 X
 X is nu 0 of 1 (placebo of medicatie gemiddelde)
 B1  is het effect tussen de twee gemiddelde waardes/groepen
o In voorbeeld: -2.800
 B0  gemiddelde groep 0 (placebo)
 Vergelijking van 3 groepen
o Y = b0 + b1 groep (0,1,2,)
 B0 = uitkomst wanneer x 0 is, oftewel waarde van groep 0
 Maar dan heb je dat b1 niet klopt  verschil tussen de groepen is niet
hetzelfde; dus geen lineair verband en de constante klopt niet. Je wilt de
onderlinge verschillen weten, dus maak je gebruik van dummy variabelen.
o Groep is echter geen continue variabele, maar een categoriale variabele die
geanalyseerd kan worden met dummies
Groep: Dummie 1 Dummie 2
0 0 0
1 1 0
2 0 1

o Y = b0 + b1D1 + b2D2
o Waarde groep 0: y0 = b0
o Waarde groep 1: y1= b0 + b1
o Waarde groep 2: y2 = b0+b2
o Nadeel: je refereert het altijd aan een groep (de referentiegroep)
o B0 = gemiddelde van groep 0
o B1 = verschil tussen groep 1 en 0
o B2 = verschil tussen groep 2 en 0

Dichotome uitkomstmaten
 Drie effectmaten
o RV, RR, OR
 1 toets: chi-kwadraat toets
o Bij de chi-kwadraattoets worden de verwachte aantallen in de cellen vergeleken met
de geobserveerde aantallen
o Hoe groter dat verschil, des te hoger de chi-kwadraat waarde  des te lager de p-
waarde
o Ook te gebruiken bij vergelijken met 3 groepen  moet je opsplitsen in 2x2 tabellen
o De toets zegt dus niks over de effectgrootte
 Logistische regressie
o Verschil 2 en 3 groepen
o Is vergelijkbaar als lineaire regressie, alleen ziet de uitkomstvariabele er een beetje
raar uit (is natuurlijke logaritme)
o LN[odds(y=1)] = b0 + b1 x groep
o De regressiecoefficient kan worden omgezet in een odds ratio  met emacht  OR =
EXP (b)
o Met 3 groepen worden weer de dummies gemaakt
 Uitkomst  3 odds ratios
 Relatie tussen dichotome variabele en een continue variabele geldt natuurlijk hetzelfde
o Effectmaat is de odds ratio voor een verschil in een eenheid in de determinant



3

,  Dichotome uitkomstvariebele + een tijdsindicator
o Voorbeeld: Herstel + tijd waarop herstel plaatsvindt
o Survival analyse
 Twee overlevingscurven (kaplan meier curven) kunnen met elkaar vergelijken
worden met behulp van de log-rank toets
 Geeft alleen p-waarde dus geen effect schatting
o Cox-regressie analyse
 Zowel de verschillen tussen twee groepen als de verschillen tussen 3
groepen kun je hiermee analyseren
 De uitkomstvariabele ziet er anders uit
 Ln[hazard] = baseline hazard + b1 x groep
 Uitkomst terugtransformeren  exp (b)
o Deze interpreteer je als een hazard ratio
 Je ziet nu geen b0
 Er is geen b0, want het is een functie over de tijd. De kans op herstel
veranderd over de functie dus dit kan niet weergeven worden in een
getal
 B1 wordt wel weergeven  effect gemiddeld over de tijd (=verhouding van
twee curven over de tijd)  veranderd ook over de tijd
o Hetzelfde geldt voor drie groepen  dummies maken
 Effectmaat is de hazard ratio voor een verschil in 1 eenheid in de determinant
 Aanname: proportionele hazards

Opmerkingen regressie analyse
 Controle op lineariteit van continue determinanten
o Toevoegen kwadraatterm  significant?  dan is het kwadratische verband beter
dan het lineaire verband
o Determinant opdelen in groepen (kwartielen)
 Kijken of de regressie coëfficiënt gelijk op loopt  hier valt geen rechte lijn
door te trekken
 De effecten per groep moet je dan rapporteren
 Confounding en effectmodificatie
o Effectmodificatie  het effect is anders voor verschillende groepen
 Toevoegen interactieterm (b3): vermenigvuldigen van de twee variabelen
waar het over gaat
 Uitkomst = b0 + b1 x groep + b2 x sekse + b3 x groep x sekse
 B1 = interventie effect effect voor sekse = 0
 B1 + B3 = interventie effect voor sekse = 1
o Als deze twee bovenstaande verschillen, dan is er sprake
van effectmodificatie
o Kijken of dit (b3) significant is
o Confounding  het gevonden effect is (gedeeltelijk) veroorzaakt door een andere
variabele, de confounder
 Toevoegen variabele aan regressiemodel en kijken of de regressie coëfficiënt
van de determinant verandert
 Vuistregel = meer dan 10% verandering = confounding
 Elegante oplossing: presenteren van zowel ongecorrigeerde als
gecorrigeerde resultaten (in de praktijk wordt de 10% niet gebruikt, en altijd
de ongecorrigeerde en gecorrigeerde resultaten gepresenteerd(doe dit ook in
je opdracht), tenzij je heel veel confounders hebt):
 Ruw, gecorrigeerde modellen met b, 95% BI en p-waarde

Predictiemodel
 Beste en meest eenvoudige model (combinatie van variabelen) om een bepaalde
uitkomstvariabele te voorspellen
 Dan ben je geïnteresseerd in alles en niet op een ding
 Strategieën: forward en backward




4

,ANOVA & regressie [Lothar Kuijper]
Regressie revisited
Lineaire regressie
 Hoe sterk is de samenhang tussen bijv. leeftijd (x) en bloeddruk (y)
 Intercept  lijn
o Y = b0 + b1x (regressievergelijking)
o Y = 0.3898x + 107.69
o Voor elk levensjaar (eenheid van leeftijd) neemt de bloedruk met 0.39 mm Hg toe
o Bij een leeftijd van 0 jaar (een pasgeborene) is de bloeddrukwaarde 107.7 mm Hg
 Het best passende verband analyseer je door de variantie te analyseren

Variantie
 Spreidingsmaat in onderzoeksgegevens xi  x 2
 Formule var 
o Teller: kwadratensom (waarneming en gemiddelde) n 1
o Noemer: aantal vrijheidsgraden
 Wortel van de variantie heet de standaarddeviatie
 Voor berekening kwadratensom in gehele meetreeks gebruik je steekproefgemiddelde
o Voor elk meetpunt vergelijk je die met het gemiddelde en dit kwadrateer je
 Kwadratensom: afstanden datapunten en rode lijn




y  y   6473.9
2
i




Basis gedachte regressie
180
 Deel van de variatie in gegevens is te verklaren door
determinant 160
o Methode: varieer met de sterkte van het
verband rond (Xgem; Ygem), zodat de 140

optelsom gekwadrateerde afstanden
120
geminimaliseerd wordt
 Resulterend verband is de regressievergelijking: 100
o Y= 0,3898x + 107.69
  y  b  b1 xi  20 5707.140
80 2
i 0 0 60 80
Vergelijking kwadratensommen
 Hoe lager resterende kwadratensom, des te beter de fit, maar is deze voldoende verlaagd om
te kunnen spreken van statistische significantie?
 6573.9
 5707.1

Oplossen van spreiding
 Door te fitten/passen los je een deel van de spreiding op
o Door te variëren met de hellingshoek
o Dat is de kwadratensom die hoort bij deze
hoek
 6573.9 – 5707.1 = 866.8
 Totale spreiding: 6573.9
 Spreiding die we kwijtgeraakt zijn:




5

, 2
o 866..9 = 0.118 = 11.8% (=R : percentage van de spreiding dat verklaard
wordt door de determinant)

Van kwadratensom naar variantie
 Variantie is de totale gegevensverzameling
 Een variantie is een kwadratensom gedeeld door het aantal vrijheidsgraden
o Van elke geschatte parameter raak je een vrijheidsgraad kwijt
 Populatiegemiddelde (n-1)
 Hellingshoek heeft er 1 nodig
 Wat overblijft is de residuele/onverklaarde variantie
 Elke determinant heeft zijn eigen variantie
 Voorbeeld (in stappen)




Variantie analyse [wat we nu hebben n.a.v. het voorbeeld: ]
 Kwadratensom per spreidingsbron
 D.f. per spreidingsbron
o Variantie is deling van die twee
 Synoniem variantie = mean square (ms)
 Door MS van een spreidingsbron af te zetten tegen residuele spreiding kunnen we statistische
significantie onderzoeken
o F-toets maakt dit mogelijk

Variantieanalyse
 Als er in werkelijkheid geen verband bestaat, dan wordt de variatie in de hellingshoek van
gevonden verband door toeval bepaald en eveneens de spreiding in residuen
(toevalsspreiding)
o En dan zouden de ms regresie en ms residuen dezelfde verwachtingswaarde hebben
o F-toets: kijken of varianties significant van elkaar verschillen




6

, MS1 MSregressie
Fdf1 ,df 2  
 F-toets: MS2 MSresiduen
o H0: twee variantieschattingen zijn uitkomstig uit populaties met een gelijke variantie
(F (uitkomst) van 1)
o Formule: Ms regressie/Ms residuen = F (dan zou F 1 moeten zijn als er geen verband
is)
 Hoe groter F  des te meer spreiding wordt opgelost en hoe sterker het pleit
voor het niet waar zijn van de h0
 Gebruik F-verdeling met df1 vrijheidsgraden in de teller en df2 in de noemer
voor bepaling p-waarde
 Interpretatie p: de kans op het vinden van het gerealiseerde verband, of extremer, is 5.8% als
je aanneemt dat h0 klopt
 Conclusie voorbeeld: de kans op het toevallig vinden van deze hellingshoek, of meer
afwijkend van 0, bedraagt 5.8%




Samenvatting
 Regressie is een vorm van variantieanalyse
 Je splitst de totale spreiding in je gegevens in een deel dat je kwijtraakt door de best
passende lijn te fitten + in een deel dat overblijft (toevalsspreiding)
2
o R geeft de verhouding tussen die twee
o Je gebruikt de MS’s (varianties) voor de F-toets

ANOVA
 Analysis of variance
 Gebruiken bij: categoriale determinanten

Voorbeeld supermarktonderzoek
 Aantal variabelen – 1
o Vrijheidsgraden
o Elke dummy is een te schatten parameter: je schat dus twee hellingshoeken




 Dummies nadelen:
o Referentiegroep moeten veranderen voor andere vergelijkingen
o Je krijgt geen eenduidig antwoord wanneer je dummies verschillende p waarden heeft
(wel of niet significant)
o Dummy regressie geeft geen antwoord op een overall effect van aanprijzing in de
supermarkt




7

,  Oplossing:
o ANOVA
o Het splitst de totale variantie in gegevens in
 Een deel dat je kwijtraakt als je ze indeelt in groepen
 Een deel dat overblijft (toevalsspreiding)
o Voorbeeld:
 H0: voor alle populaties geldt dat de verwachtinswaarde gelijk is
 H1: minstens een van de verwachtingswaarden verschilt van de andere
 Als we h0 verwerpen, dan concluderen we dat de aankoop van de gezonde
producten samenhangt met de wijze van adverteren

ANOVA – werking
 Gegevens en groepsgemiddelden hebben een spreiding 15


 Is toeval een goede verklaring zijn voor de spreiding in 12

groepsgemiddelden? 9
o In het voorbeeld: zou best een toeval zijn
6
o ANOVA geeft hier antwoord op
 Stappenplan: 3

o Bepaal kwadratensom alle gegevens 0
Groep 1 Groep 2 Groep 3
o Bepaal residuele kwadratensom na analyse van
gegevens per groep
o Bepaal het aantal vrijheidsgraden
 1. Alle groepen bij elkaar (=totaal) – gemiddelde van gegevens
 Bepaald kwadratensom
 Resultaat in dit voorbeeld = 2545
 2. Bepaal voor elke groep de kwadratensom rond groepsgemiddelde
 Per groep moet je optellen (= residuen)
 Resultaat in dit voorbeeld = 2217.5
 Je ziet dan een vermindering in het voorbeeld
 3. Van elkaar aftrekken (=regressie)
 4. Aantal vrijheidsgraden voor dummies: 3-1 = 2
 5. Resterend aantal: 89-2 = 87
 Immers voor elke groep 30-1 = 29 df




o Mean square
 MS (mean square) regressie: 163.7
 MS residuen: 25.5
 Dit is een groot verschil




8
$4.23
Accede al documento completo:

100% de satisfacción garantizada
Inmediatamente disponible después del pago
Tanto en línea como en PDF
No estas atado a nada

Conoce al vendedor

Seller avatar
Los indicadores de reputación están sujetos a la cantidad de artículos vendidos por una tarifa y las reseñas que ha recibido por esos documentos. Hay tres niveles: Bronce, Plata y Oro. Cuanto mayor reputación, más podrás confiar en la calidad del trabajo del vendedor.
Naomi12 Vrije Universiteit Amsterdam
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
224
Miembro desde
13 año
Número de seguidores
93
Documentos
31
Última venta
1 año hace

3.8

25 reseñas

5
3
4
15
3
7
2
0
1
0

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes