Samenvatting Gevorderde multivariate data-analyse: Deel 1
H.1 Inleiding
Logistische regressie:
- afhankelijke var. = dummy (0/1)
- 1 level/niveau waarop analyse gedaan word
1.1 Inleiding survival analyse
afhankelijke var.
= duur tot het optreden van bepaalde gebeurtenis
= gebeurtenis/tijd
altijd doorheen de tijd opvolgen en kijken of gebeurtenis optreedt
Welbepaalde gebeurtenis kan sterfte, diabetes,…
o Clearcut: 0/1 = wel of niet = afgelijnd gegeven met duidelijke breuk en overgang tussen
toestanden
o Wederzijds exclusieve gebeurtenissen = niet overlappende gebeurtenis
vb. Sterfte: wel of niet sterven, kan maar 1 van 2 zijn
o Wederzijds exhaustief = alle mogelijke toestanden worden gedekt
vb. Sterven: alle mogelijke toestanden van sterven aanwezig (hier 2 toestanden)
Noodzakelijk:
o Een goed gedefinieerd ‘event’
o Een duidelijk begin van de tijd
o Een betekenisvolle matrix om de tijd te meten
Tijd/duur:
o Bij start van tijd mag nog niemand gebeurtenis hebben meegemaakt
Vb. Echtscheidingsrisico: start met enkel samenwonende mensen en dan kijken naar
vervolg
o Discrete of continue tijdsmeting bepaalt analyse:
Discrete: te tellen => intervallen van tijd
Continu: oneindig klein => doorlopend => geen intervallen
vb. Relatieduur voor samenwonen – scheidingsrisico: hoe langer men in relatie is voor het
samenwonen, hoe stabieler relatie en hoe langer scheidingsrisico.
! Realiteit wordt vereenvoudigd tot 2 duidelijke toestanden, tot dummy
1.2 Inleiding tot multilevel analyse
= meerdere levels/niveaus in data
Vb. Relatie studiekeuze – uitstel 1e kind
1
, - Level 1 = respondenten
- Level 2 = opleidingsniveau
- Level 3 = landen
Levels, lagen in data door onderzoeksvraag
Onderzoeksvraag gaat specifiek over verschillende niveaus
Moet niet altijd ~ criteria
Belang van context omdat sociale processen + fenomenen zich afspelen in bepaalde context
=> variabiliteit op verschillende niveaus
Clustering in groepen
Vb. Uitstel 1e kind: invloed door individuele kenmerken vrouw (1), kenmerken studierichting (2)
mbt attitude tov familie, gendercompositie in richting,…, eigenschappen land (3)
<-> Regressie-analyse: kenmerken meegenomen ter controle of interactie-effecten zijn
kenmerken van respondent (level 1 in voorbeeld)
H.2 Herhaling
2.1 Demografische cijfers: rates (breuk)
= occurence-exposure rate
= # gebeurtenissen in pop./# persoonsjaren at risk (gebeurtenis + overblijvende van populatie)
Noemer rekening houden met aantal personen EN hoelang ze at risk zijn
=> persoon met gebeurtenis verdwijnt uit noemer want exclusieve gebeurtenissen, in teller
gaan = verdwijnen uit noemer
Persoonsjaren = som van eenheden van tijd dat elk individu at risk was + geobserveerd was
Cijfer houdt rekening met feit dat occurrence hoger is bij grotere pop.
Cijfer moet referentieperiode hebben
Uitgedrukt in %° = promille
Period rate = crude rate:
(crude = bruto)
= # gebeurtenissen tss 0 en T/persoonsjaren at risk in pop. tss 0 en T
o Periode gebruiken om te berekenen
o Meestal 1 jaar want makkelijk want elke persoon draagt 1 persoonsjaar bij als ze niet
sterven per jaar
o Vaak uitgedrukt per 1000 personen
o Eigenlijk conditionele kans want voorwaarden stellen = at risk om gebeurtenis mee
te maken, # gebeurtenissen gegeven at persoon at risk is
Link met survival analyse: occurence-exposure rate = afhankelijke var.
2
,Vb. N = 10 gevolgd gedurende 5 jaar, 3 sterven gedurende 5 jaar (na 1.5j., na 3j, na 4j.)
Rate = 3 sterfgevallen/(7 overlevende*5 jaren levend) + (1 sterft*1.25 tot sterfte) + (1
sterfte*3 jaar geleegd) + (1 sterfte*4 jaar geleefd)
Vb. Crude death rates in Ghana (6.6%°) vs. België (9.8%°):
- In België sterfte 9.8 personen per 1000 inwoners per jaar
- In Ghana sterft 6.6 personen per 1000 inwoners per jaar
- Hoger in België want Ghana jongere leeftijdsstructuur want rate ~ leeftijdsstructuur
=> brutocijfers soms vreemde uitkomsten
=> standaardisatie nodig om verschillen door leeftijd weg te filteren en te kunnen vgl
2.2 Veralgemeende lineaire modellen
Gemeenschappelijk kader voor dependentietechnieken want asymmetrie ( = afh. var. Y en
verschillende onafh. var. X) -
Klassiek lineair model: Y lineaire functie van X
-> kan enkel bij voldoen aan criteria MAAR vaak Y geen lin. Functie van X
=> Y transformeren zodat getransformeerde versie van Y als lineaire functie van X’en
geschreven kan worden
=> van Y = a + bx -> t(Y) = a + b 1 x 1 + b 2 x 2 + …
! Soort variabele bepaalt transformatie
DUS Als t(Y) een lineaire functie is van X => methoden uit lineaire modellen toepassen om
parameters van niet-lineaire model te schatten
=> bruikbaarheid statistische dependentie-technieken voor sociale wetenschappen verhoogd
Veronderstelling: onderliggend lineair model: geen lineaire relatie tss af. Var. Y en onafh. var.
X => afh. var. U transformeren zodat Y wel als lineaire functie van X’en kan bekeken worden
Gemeenschappelijke schattingsmethode: maximum likelihood estimation
Voordeel:
o geldt voor lineaire regressie + survival + multilevel
o idem schattingsmethode
o dezelfde testen om te kijken of het veralgemeenbaar is naar pop. of niet
dezelfde technieken, toetsen, indicatoren te gebruiken voor verschillende
dependentietechnieken
Stappenplan:
o Stap 1: is geen lineaire functie
Y = a + bx
o Stap 2: y transformeren => (! B0 = a = intercept)
3
, Z = bx + a
! Natuurlijk logaritme = ln(y) = omgekeerde bewerking van machten = tot welke macht grondtal
verheffen om tot y te komen
- Log = ln met grondtal 10
- Ln = Natuurlijk logaritme
- Naperiaanse logaritme met grondtal e
Vb. ln(brutomaandloon) = b 0 + b 1*actuele werkduur
o Stap 3: beide delen van vgl expotentiëren om makkelijker te berekenen
e ln ( x )=e b 0 +b 1 actuele werkduur
MAAR e en ln heffen elkaar op => afh. var = verwachte waarde van X = E(X)
= e b 0+ b 1actuele werkduur
= e b 0∗eb 1 actuele werkduur
(exp = e)
Y = e bx e a
Vb. e ln (brutomaandloon )=e b 0+ b1 actuele werkduur
¿ E(brutomaandloon) = e b 0+ b 1actuele werkduur = e b 0∗eb 1 actuele werkduur
3 componenten:
1. Stochastische component = Y
o Afh. var. = geobserveerde stochast = toevalsvariabele = niet vastliggende var.
o Bepaalt alles
o Varieert
o Heeft een gemiddelde en kansverdeling
o Volgens model verwacht waarde = gemiddelde waarde gegeven X
µ = E(y|X) = verwachte waarde van Y gegeven X (conditionele kansverdeling)
2. Systematische component = lineaire predictor
! Griekse symbolen = populatie
! Latijnse symbolen = steekproef
3. Linkfunctie: verbinding tss E(y) en lineaire predictor
o Aard afh. var bepaalt linkfunctie
o Lineaire regressie: identiteitsfunctie => geen transformatie dus linkfunctie nodig
o Linkfunctie = natuurlijk logaritme =
4
H.1 Inleiding
Logistische regressie:
- afhankelijke var. = dummy (0/1)
- 1 level/niveau waarop analyse gedaan word
1.1 Inleiding survival analyse
afhankelijke var.
= duur tot het optreden van bepaalde gebeurtenis
= gebeurtenis/tijd
altijd doorheen de tijd opvolgen en kijken of gebeurtenis optreedt
Welbepaalde gebeurtenis kan sterfte, diabetes,…
o Clearcut: 0/1 = wel of niet = afgelijnd gegeven met duidelijke breuk en overgang tussen
toestanden
o Wederzijds exclusieve gebeurtenissen = niet overlappende gebeurtenis
vb. Sterfte: wel of niet sterven, kan maar 1 van 2 zijn
o Wederzijds exhaustief = alle mogelijke toestanden worden gedekt
vb. Sterven: alle mogelijke toestanden van sterven aanwezig (hier 2 toestanden)
Noodzakelijk:
o Een goed gedefinieerd ‘event’
o Een duidelijk begin van de tijd
o Een betekenisvolle matrix om de tijd te meten
Tijd/duur:
o Bij start van tijd mag nog niemand gebeurtenis hebben meegemaakt
Vb. Echtscheidingsrisico: start met enkel samenwonende mensen en dan kijken naar
vervolg
o Discrete of continue tijdsmeting bepaalt analyse:
Discrete: te tellen => intervallen van tijd
Continu: oneindig klein => doorlopend => geen intervallen
vb. Relatieduur voor samenwonen – scheidingsrisico: hoe langer men in relatie is voor het
samenwonen, hoe stabieler relatie en hoe langer scheidingsrisico.
! Realiteit wordt vereenvoudigd tot 2 duidelijke toestanden, tot dummy
1.2 Inleiding tot multilevel analyse
= meerdere levels/niveaus in data
Vb. Relatie studiekeuze – uitstel 1e kind
1
, - Level 1 = respondenten
- Level 2 = opleidingsniveau
- Level 3 = landen
Levels, lagen in data door onderzoeksvraag
Onderzoeksvraag gaat specifiek over verschillende niveaus
Moet niet altijd ~ criteria
Belang van context omdat sociale processen + fenomenen zich afspelen in bepaalde context
=> variabiliteit op verschillende niveaus
Clustering in groepen
Vb. Uitstel 1e kind: invloed door individuele kenmerken vrouw (1), kenmerken studierichting (2)
mbt attitude tov familie, gendercompositie in richting,…, eigenschappen land (3)
<-> Regressie-analyse: kenmerken meegenomen ter controle of interactie-effecten zijn
kenmerken van respondent (level 1 in voorbeeld)
H.2 Herhaling
2.1 Demografische cijfers: rates (breuk)
= occurence-exposure rate
= # gebeurtenissen in pop./# persoonsjaren at risk (gebeurtenis + overblijvende van populatie)
Noemer rekening houden met aantal personen EN hoelang ze at risk zijn
=> persoon met gebeurtenis verdwijnt uit noemer want exclusieve gebeurtenissen, in teller
gaan = verdwijnen uit noemer
Persoonsjaren = som van eenheden van tijd dat elk individu at risk was + geobserveerd was
Cijfer houdt rekening met feit dat occurrence hoger is bij grotere pop.
Cijfer moet referentieperiode hebben
Uitgedrukt in %° = promille
Period rate = crude rate:
(crude = bruto)
= # gebeurtenissen tss 0 en T/persoonsjaren at risk in pop. tss 0 en T
o Periode gebruiken om te berekenen
o Meestal 1 jaar want makkelijk want elke persoon draagt 1 persoonsjaar bij als ze niet
sterven per jaar
o Vaak uitgedrukt per 1000 personen
o Eigenlijk conditionele kans want voorwaarden stellen = at risk om gebeurtenis mee
te maken, # gebeurtenissen gegeven at persoon at risk is
Link met survival analyse: occurence-exposure rate = afhankelijke var.
2
,Vb. N = 10 gevolgd gedurende 5 jaar, 3 sterven gedurende 5 jaar (na 1.5j., na 3j, na 4j.)
Rate = 3 sterfgevallen/(7 overlevende*5 jaren levend) + (1 sterft*1.25 tot sterfte) + (1
sterfte*3 jaar geleegd) + (1 sterfte*4 jaar geleefd)
Vb. Crude death rates in Ghana (6.6%°) vs. België (9.8%°):
- In België sterfte 9.8 personen per 1000 inwoners per jaar
- In Ghana sterft 6.6 personen per 1000 inwoners per jaar
- Hoger in België want Ghana jongere leeftijdsstructuur want rate ~ leeftijdsstructuur
=> brutocijfers soms vreemde uitkomsten
=> standaardisatie nodig om verschillen door leeftijd weg te filteren en te kunnen vgl
2.2 Veralgemeende lineaire modellen
Gemeenschappelijk kader voor dependentietechnieken want asymmetrie ( = afh. var. Y en
verschillende onafh. var. X) -
Klassiek lineair model: Y lineaire functie van X
-> kan enkel bij voldoen aan criteria MAAR vaak Y geen lin. Functie van X
=> Y transformeren zodat getransformeerde versie van Y als lineaire functie van X’en
geschreven kan worden
=> van Y = a + bx -> t(Y) = a + b 1 x 1 + b 2 x 2 + …
! Soort variabele bepaalt transformatie
DUS Als t(Y) een lineaire functie is van X => methoden uit lineaire modellen toepassen om
parameters van niet-lineaire model te schatten
=> bruikbaarheid statistische dependentie-technieken voor sociale wetenschappen verhoogd
Veronderstelling: onderliggend lineair model: geen lineaire relatie tss af. Var. Y en onafh. var.
X => afh. var. U transformeren zodat Y wel als lineaire functie van X’en kan bekeken worden
Gemeenschappelijke schattingsmethode: maximum likelihood estimation
Voordeel:
o geldt voor lineaire regressie + survival + multilevel
o idem schattingsmethode
o dezelfde testen om te kijken of het veralgemeenbaar is naar pop. of niet
dezelfde technieken, toetsen, indicatoren te gebruiken voor verschillende
dependentietechnieken
Stappenplan:
o Stap 1: is geen lineaire functie
Y = a + bx
o Stap 2: y transformeren => (! B0 = a = intercept)
3
, Z = bx + a
! Natuurlijk logaritme = ln(y) = omgekeerde bewerking van machten = tot welke macht grondtal
verheffen om tot y te komen
- Log = ln met grondtal 10
- Ln = Natuurlijk logaritme
- Naperiaanse logaritme met grondtal e
Vb. ln(brutomaandloon) = b 0 + b 1*actuele werkduur
o Stap 3: beide delen van vgl expotentiëren om makkelijker te berekenen
e ln ( x )=e b 0 +b 1 actuele werkduur
MAAR e en ln heffen elkaar op => afh. var = verwachte waarde van X = E(X)
= e b 0+ b 1actuele werkduur
= e b 0∗eb 1 actuele werkduur
(exp = e)
Y = e bx e a
Vb. e ln (brutomaandloon )=e b 0+ b1 actuele werkduur
¿ E(brutomaandloon) = e b 0+ b 1actuele werkduur = e b 0∗eb 1 actuele werkduur
3 componenten:
1. Stochastische component = Y
o Afh. var. = geobserveerde stochast = toevalsvariabele = niet vastliggende var.
o Bepaalt alles
o Varieert
o Heeft een gemiddelde en kansverdeling
o Volgens model verwacht waarde = gemiddelde waarde gegeven X
µ = E(y|X) = verwachte waarde van Y gegeven X (conditionele kansverdeling)
2. Systematische component = lineaire predictor
! Griekse symbolen = populatie
! Latijnse symbolen = steekproef
3. Linkfunctie: verbinding tss E(y) en lineaire predictor
o Aard afh. var bepaalt linkfunctie
o Lineaire regressie: identiteitsfunctie => geen transformatie dus linkfunctie nodig
o Linkfunctie = natuurlijk logaritme =
4