Gevorderde analysetechnieken & onderzoekssoftware
Gevorderde analysetechnieken & onderzoekssoftware, les 1 (10/02)
1. Start
• Bi- en multivariate data analyse: kwantitatief
o Veelheid aan technieken en toetsen
o Software: SPSS, AMOS, PowerBI, StatsHub,…
o Aandacht voor randvoorwaarden en data kwaliteit
• Kwalitatieve technieken
o Basis: codering en data systemen
o Software gesteund: Nvivo, QSort
2. Inleiding
• Bivariate statistiek = x en y --‐> 2 variabelen, mogelijke relatie verklaren
• Multi = aantal afhankelijke, onafhankelijke variabelen, moderatoren, … (meerdere
variabelen)
3. Probabiliteit & Inferentiële statistiek
• Op weg naar inducties (uit bijzondere gegevens algemene regel afleiden) vanuit 1
steekproef naar de populatie:
o Steekproefparameters versus populatieparameters
o Steekproevenverdeling
o Toetsen = aanvaardingsintervallen bouwen
o Uitspraken doen over de populatieparameter = betrouwbaarheidsintervallen
bouwen
➔ We willen iets zeggen over een populatie maar hebben maar een deel bevraagd
(steekproef)
4. Even doordenken
• Kwantitatief onderzoek gebeurt op basis van een steekproef waarbij we een aantal
mensen (N) bevragen of observeren (= sample size)
o Kunnen we op basis van 1 steekproef waar we het waargenomen gemiddelde
meten (x streep) exact het echte populatiegemiddelde (µ = onbekende
populatiegemiddelde) kennen?
▪ NEEN, niet met 100 procent zekerheid (wel er dichtbij komen)
(kansvariabelen, kunnen verschillen door toeval)
o Zal een steekproef op maandag 11u exact hetzelfde beeld geven als op een
ander moment? NEEN, maar wel proberen juiste conclusies te trekken op
basis van die ene steekproef (er zit variantie op)
1
, o Wat als we 1000 steekproeven nemen en daarvan het supergemiddelde
berekenen? Zal heel erg dicht bij echte gemiddelde liggen (mu)
▪ 1 steekproef kan al voor 95% zekerheid zorgen
➔ Is een grote steekproef beter dan een kleine? JA, onzekerheid wordt gereduceerd
door factor N (wel niet lineair)
➔ Elk lijntje is 1 steekproef (gemiddelde uithalen, bolletje in midden van elke lijn als je
geïnteresseerd bent in centraliteit). Wanneer je het algemeen gemiddelde neemt
van al die steekproeven, dan kom je uit op µ. Maar probleem is dat we er maar 1
uitvoeren (geen puntschatting maar BI, marge inlassen). Stel je hebt maar tijd en geld
voor 1 steekproef, dan kan je dat ook met 99% zekerheid zeggen. X streep gaat
getrokken zijn van een normale verdeling.
5. Steekproevenverdeling
• Steekproefgrootheden (vb het waargenomen percentage p) zijn kansvariabelen
(verschillen doortoeval) getrokken uit een normale verdeling
• Steekproevenverdeling: geeft weer hoe steekproefgrootheden variëren bij onbeperkt
aantal herhaalde steekproeftrekkingen (geeft aan hoe de parameter waarin je
geïnteresseerd bent zich gedraagt, welke spreiding daar bv. opzit)
• De kennis van die ‘sampling distribution’ (= steekproevenverdeling) laat ons toe om
op basis van 1 steekproef
o ‘Scherpe’ uitspraken te doen over de populatiewaarden ‘hoe groot is
het echte percentage bezorgden over het klimaat?’
o Beweringen/ stellingen te toetsen : kan het echte percentage gelijk
zijn aan een bepaalde waarde bvb π = 0,70
➔ Noteer: p = steekproef percentage; π = populatie percentage
2
, 4.1. voorbeeld
• Stel dat in VS populatie 60% niet--‐kerkelijk (π = 0,60) (gaan ervan uit dat we echte
populatieparameter kennen) (percentage steeds uitdrukken als decimaal getal)
• Steekproefgrootte is extreem belangrijk (N)
• Stel dat 1000 EAS (enkelvoudig aselecte steekproef) van 100 personen ➔ Benadering
van steekproevenverdeling:
➔ Grootste aantal die je tegenkomt, liggen in buurt van 0,6 maar er zijn ook enkele
uitschieters (je kan realisatie bekomen die aan lage of hoge kant ligt met 1
steekproef). DUS wanneer het echte percentage 60% is, kunnen we toch een ander
percentage bekomen met 1 steekproef
4.2. Impact van N is niet te onderschatten (niet lineair) (hier geen uitschieters meer)
• Stel dat 1000 EAS van 1785 personen
• Standaardfout = 0,01 ➔ 95% steekproeven [0,58 , 0,62] (standaardafwijking is
veel kleiner want delen door grotere N)
• Kleiner interval dus dichter in buurt van echte waarneming/gemiddelde (percentage
ligt dus dichter bij 60 procent)
Conclusie: Grote steekproef veel meer precisie (en grotere zekerheid)
3
, 6. Basislogica inductie
• Via steekproefgrootheden populatiegrootheden schatten
• We gebruiken daarvoor zuivere schatters: gemiddelde van steekproevenverdeling
(verwachting) = populatiegrootheid (x streep zuivere schatter voor verwachting)
• Spreiding neemt af naarmate steekproefomvang (N) groter wordt
• Vertekening mogelijk door steekproefontwerp
• Steekproevenverdeling bezit spreiding: gemeten via standaardafwijking van die
steekproevenverdeling (standaardfout of standard error)
o Delen door N = onzekerheid (reduceren bij grote N)
o Voor 2,5 procent links en rechts nemen we 1,96
o Standaardafwijking is 0,049
7. Zuivere schatter (gemiddelde)
A) Resultaten die dicht bij elkaar liggen (kleine spreiding) maar grote vertekening
want waarden liggen ver van echte gemiddelde
B) Heel veel spreiding, ver van echte waarneming
C) Worst case situatie
D) X streep ligt heel dicht in buurt van mu, p heel dicht in buurt van pi +
spreiding/onzekerheid/variabiliteit is onder controle, standard error is relatief
laag (ideale situatie)
Gemiddelde: alles optellen en delen door het aantal
x̄ zal dicht bij µ liggen
P zal dicht bij π liggen
Spreiding op x̄ zal onder controle liggen → se (standaard error) is relatief laag
4
Gevorderde analysetechnieken & onderzoekssoftware, les 1 (10/02)
1. Start
• Bi- en multivariate data analyse: kwantitatief
o Veelheid aan technieken en toetsen
o Software: SPSS, AMOS, PowerBI, StatsHub,…
o Aandacht voor randvoorwaarden en data kwaliteit
• Kwalitatieve technieken
o Basis: codering en data systemen
o Software gesteund: Nvivo, QSort
2. Inleiding
• Bivariate statistiek = x en y --‐> 2 variabelen, mogelijke relatie verklaren
• Multi = aantal afhankelijke, onafhankelijke variabelen, moderatoren, … (meerdere
variabelen)
3. Probabiliteit & Inferentiële statistiek
• Op weg naar inducties (uit bijzondere gegevens algemene regel afleiden) vanuit 1
steekproef naar de populatie:
o Steekproefparameters versus populatieparameters
o Steekproevenverdeling
o Toetsen = aanvaardingsintervallen bouwen
o Uitspraken doen over de populatieparameter = betrouwbaarheidsintervallen
bouwen
➔ We willen iets zeggen over een populatie maar hebben maar een deel bevraagd
(steekproef)
4. Even doordenken
• Kwantitatief onderzoek gebeurt op basis van een steekproef waarbij we een aantal
mensen (N) bevragen of observeren (= sample size)
o Kunnen we op basis van 1 steekproef waar we het waargenomen gemiddelde
meten (x streep) exact het echte populatiegemiddelde (µ = onbekende
populatiegemiddelde) kennen?
▪ NEEN, niet met 100 procent zekerheid (wel er dichtbij komen)
(kansvariabelen, kunnen verschillen door toeval)
o Zal een steekproef op maandag 11u exact hetzelfde beeld geven als op een
ander moment? NEEN, maar wel proberen juiste conclusies te trekken op
basis van die ene steekproef (er zit variantie op)
1
, o Wat als we 1000 steekproeven nemen en daarvan het supergemiddelde
berekenen? Zal heel erg dicht bij echte gemiddelde liggen (mu)
▪ 1 steekproef kan al voor 95% zekerheid zorgen
➔ Is een grote steekproef beter dan een kleine? JA, onzekerheid wordt gereduceerd
door factor N (wel niet lineair)
➔ Elk lijntje is 1 steekproef (gemiddelde uithalen, bolletje in midden van elke lijn als je
geïnteresseerd bent in centraliteit). Wanneer je het algemeen gemiddelde neemt
van al die steekproeven, dan kom je uit op µ. Maar probleem is dat we er maar 1
uitvoeren (geen puntschatting maar BI, marge inlassen). Stel je hebt maar tijd en geld
voor 1 steekproef, dan kan je dat ook met 99% zekerheid zeggen. X streep gaat
getrokken zijn van een normale verdeling.
5. Steekproevenverdeling
• Steekproefgrootheden (vb het waargenomen percentage p) zijn kansvariabelen
(verschillen doortoeval) getrokken uit een normale verdeling
• Steekproevenverdeling: geeft weer hoe steekproefgrootheden variëren bij onbeperkt
aantal herhaalde steekproeftrekkingen (geeft aan hoe de parameter waarin je
geïnteresseerd bent zich gedraagt, welke spreiding daar bv. opzit)
• De kennis van die ‘sampling distribution’ (= steekproevenverdeling) laat ons toe om
op basis van 1 steekproef
o ‘Scherpe’ uitspraken te doen over de populatiewaarden ‘hoe groot is
het echte percentage bezorgden over het klimaat?’
o Beweringen/ stellingen te toetsen : kan het echte percentage gelijk
zijn aan een bepaalde waarde bvb π = 0,70
➔ Noteer: p = steekproef percentage; π = populatie percentage
2
, 4.1. voorbeeld
• Stel dat in VS populatie 60% niet--‐kerkelijk (π = 0,60) (gaan ervan uit dat we echte
populatieparameter kennen) (percentage steeds uitdrukken als decimaal getal)
• Steekproefgrootte is extreem belangrijk (N)
• Stel dat 1000 EAS (enkelvoudig aselecte steekproef) van 100 personen ➔ Benadering
van steekproevenverdeling:
➔ Grootste aantal die je tegenkomt, liggen in buurt van 0,6 maar er zijn ook enkele
uitschieters (je kan realisatie bekomen die aan lage of hoge kant ligt met 1
steekproef). DUS wanneer het echte percentage 60% is, kunnen we toch een ander
percentage bekomen met 1 steekproef
4.2. Impact van N is niet te onderschatten (niet lineair) (hier geen uitschieters meer)
• Stel dat 1000 EAS van 1785 personen
• Standaardfout = 0,01 ➔ 95% steekproeven [0,58 , 0,62] (standaardafwijking is
veel kleiner want delen door grotere N)
• Kleiner interval dus dichter in buurt van echte waarneming/gemiddelde (percentage
ligt dus dichter bij 60 procent)
Conclusie: Grote steekproef veel meer precisie (en grotere zekerheid)
3
, 6. Basislogica inductie
• Via steekproefgrootheden populatiegrootheden schatten
• We gebruiken daarvoor zuivere schatters: gemiddelde van steekproevenverdeling
(verwachting) = populatiegrootheid (x streep zuivere schatter voor verwachting)
• Spreiding neemt af naarmate steekproefomvang (N) groter wordt
• Vertekening mogelijk door steekproefontwerp
• Steekproevenverdeling bezit spreiding: gemeten via standaardafwijking van die
steekproevenverdeling (standaardfout of standard error)
o Delen door N = onzekerheid (reduceren bij grote N)
o Voor 2,5 procent links en rechts nemen we 1,96
o Standaardafwijking is 0,049
7. Zuivere schatter (gemiddelde)
A) Resultaten die dicht bij elkaar liggen (kleine spreiding) maar grote vertekening
want waarden liggen ver van echte gemiddelde
B) Heel veel spreiding, ver van echte waarneming
C) Worst case situatie
D) X streep ligt heel dicht in buurt van mu, p heel dicht in buurt van pi +
spreiding/onzekerheid/variabiliteit is onder controle, standard error is relatief
laag (ideale situatie)
Gemiddelde: alles optellen en delen door het aantal
x̄ zal dicht bij µ liggen
P zal dicht bij π liggen
Spreiding op x̄ zal onder controle liggen → se (standaard error) is relatief laag
4