longitudinale data: basisprincipes
Analyse van kruistabellen: statistische onafhankelijkheid
Causaliteit in de sociale wetenschappen: 3 voorwaarden
Oorzaak x gaat gevolg y in de tijd vooraf, tijdsinterval is nooit 0 of oneindig
o Impliceert dat je een longitudinaal design nodig hebt om vast te stellen of er
veranderingen zijn in onafhankelijke variabelen en op latere tijd ook verandering in
afhankelijke variabele
o Maar als je een transversaal design hebt (= mensen op 1 moment in de tijd
bevragen), dan is die temporele ordening niet aanwezig en dan zit je verder van dat
causaal design of experimenteel design
Statistische associatie tussen oorzaak x en gevolg y, sterkte vd samenhang kan variëren
Samenhang tussen x en y niet te wijten aan derde veranderlijke
o Bij een experiment ga je de 2 groepen handmatig gelijkmaken door randomisatie
o Bij quasi-experimenten doe je dat adhv matching
o Met panels heb je een zelfselectie en kun je nog aan de slag met matching, maar dit
is moeilijk omdat de groep dan te klein wordt qua omvang
o Transversale designs: daar ben je het idee van temporele ordening helemaal kwijt,
dan kan je een causaal model theoretisch gaan ontwikkelen en kijken of dat
overeenkomt met de associaties die je aantreft in de data
13.1 analyse van de samenhang tussen nominale en/of ordinale variabelen
13.1.1 gegevens en probleemstelling
Schoolloopbanen van jongeren met een migratieachtergrond, kijken naar hoe blijvenzitten in
die 2 groepen verschilt en kijken welke factoren die daar een invloed op hebben
o Mannen met turkse achtergrond <-> mannen met marokkaanse achtergrond
Er is inderdaad een verschil van een jaar herhalen bij die 2 groepen maar kan te maken
hebben met allerlei factoren
o Groepen wonen op verschillende plaatsen in het land, dat maakt dat ze blootgesteld
worden aan verschillende onderwijssystemen
o Migratieleeftijd speelt een heel belangrijke rol, hoe jonger je migreert hoe minder
kans op onderbrekingen en je dus je volledige schoolloopbaan in belgie zou kunnen
doen
=> als de migratieleeftijden verschillen, zou dat een van de redenen kunnen zijn waarom
er een verschil zit tussen blijven zitten tussen die 2 groepen
o Samenhang controleren voor derde veranderlijke
Als er nationaliteitsverschillen zijn in blijvenzitten, dan is de vraag of die verschillen te wijten
aan regionale verschillen, differentiatie of verschillen in migratieleeftijd
In de analyse operationaliseren
o DUBBEL: waarde 1 voor mannen die 1 of meer jaren hebben overgedaan, waarde 0
voor mannen die nooit een jaar hebben overgedaan
o TURK: dummy variabele met waarde 1 voor Turkse mannen en waarde 0 voor
marokkaanse mannen
o GEWEST: categorische variabele met waarde 1 voor vlaanderen en waarde 2 voor
Brussel en waarde 3 voor Wallonië
o MIGLFT: leeftijd waarop respondenten zich in België hebben gevestigd met waarde 0
voor turkse en marokkaanse mannen van de tweede generatie
, 13.1.2 analyse van kruistabellen: doelstellingen
3 doelstellingen
o Beschrijven van de aard en de richting van verband
Adhv rijpercentages en kolompercentages
Adhv vergelijking van relatieve conditionele verdelingen
o Veralgemeenbaardheid van samenhang
Adhv berekening celfrequenties bij onafhankelijkheid
Adhv chi-kwadraat toets en chi-kwadraatverdeling
o Bepalen van sterkte van de samenhang
Adhv associatiematen voor nominale en ordinale veranderlijken
13.1.3 anatomie van een kruistabel
X = nationaliteit (2 waarden: marokkaans of turks)
Y = blijvenzitten (2 waarden: blijvenzitten of niet)
Voor elke variabelen zijn er waarden die je vaststelt
Celfrequenties: geven aan hoe vaak een specifieke combinatie van kenmerken voorkomt
Die cellen kan je optellen per kolom of per rij = rijtotaal of kolomtotaal
Fij: i = rij, j = kolom
Rijtotalen = marginale verdeling van y-variabele (blijven zitten)
Kolomtotalen = marginale verdeling/het effectief van x-variabele (nationaliteit)
Conditionele verdelingen
o Verdeling voor een kenmerk maar voor 1 groep van de andere variabele
o Vb. verdeling van de rijvariabele voor 1 specifieke categorie van de kolomvariabele
dat is de conditionele verdeling van y gegeven x
o Gegeven marokkaans met conditionele verdeling blijven zitten of niet
Conditionele verdeling voor blijven zitten specifiek voor die
nationaliteitsgroep
o Kan ook omgekeerd
13.1.4 statistische onafhankelijkheid en samenhang
Twee gebeurtenissen A en B zijn onafhankelijk als en alleen als conditionele kans op A
gegeven B gelijk is aan kans op A ongeacht B, en omgekeerd, conditionele kans op B gegeven
A gelijk is aan kans op B ongeacht A:
P(A/B) = P(A)
P(B/A) = P(B)
Als je statistische onafhankelijkheid hebt dan geldt: P(A&B) = P(A).P(B)
Bij onafhankelijkheid helpt de kennis van A je niet vooruit om B te voorspellen en omgekeerd
Er is dus statistische onafhankelijkheid als de conditionele verdeling van A dezelfde is binnen
de categorieën van B en omgekeerd
Als relatieve conditionele verdeling gelijk is aan marginale verdeling => onafhankelijkheid
o Verdeling B is hetzelfde ongeacht in welke categorie van A je zit
13.1.5 aard van de samenhang: rij- en kolompercentages
Rijpercentages berekenen
o (celfrequentie/rijtotaal)*100
o Rijpercentages vergelijk je binnen eenzelfde kolom
Kolompercentages berekenen
o (celfrequentie/kolomtotaal)*100
o Kolompercentages vergelijk je binnen eenzelfde rij
!altijd dwars vergelijken
Onafhankelijke x vergelijken met afhankelijke y
o X = kolom = onafhankelijk