H1: INLEIDING: VERKENNEN VAN DATA
Kort theoretisch overzicht verkennen van data
Voor statistische analyse # dingen bekijken
- Welke data? - Uitschieters?
- Welke verdeling h de data? - Kenmerken schaal?
- Missing values? Oorzaak?
Correlatiecoëfficiënten gevoelig voor uitschieters → het nooit interpreteren zonder spreidingsdiagram
Buitenbeentjes en uitschieters (outliers en extremes)
- ≠ oorzaken extreme waarden
• Invoerfouten → verwijder en
• unieke gevallen → afh doel onderzoek
o algemene tendensen beschrijven → ze eruit halen < dragen n bij aan algemene
tendens
o uitschieter komt voor in representatieve steekproef → k bijdragen om grootte BI en
meetfouten niet te onderschatten → behouden
Ontbrekende data (missing values)
- normaal gezien buiten beschouwing gelaten = complete case (in spss listwise)
- multivariate data analyse → cases m geldige waarnemingen h voor alle variabaleen
- sommige variabelen veel missing values → steekproef mss te klein
- data van alle deelnemers waarvoor min 1 gegeven ontbreekt w buiten beschouwing gelaten
- waarnemingen ontbreken toevallig → geen systematiek → steekproef blijft vold groot (missing
values geen probleem)
- wel systematiek in missing values → k vertekend beeld geven
• vb enquete, mensen met extreme gedachten antwoorden niet → steekproef niet meer
representatief voor populatie
- → nagaan of het toevallig is of er reden voor is
- Als probleem → pairwise deletion aanpak ipv complete case
• Per analyse w alle deelnemers beschouwd waarvoor alle beschouwde variabelen
beschikbaar z
• Voordeel: maximale hoeveelheid beschikbare data w verwerkt
• Nadeel: ≠ analyses geven resultaten weer van wisselende groep deelnemers waarvoor
toevallig bep data beschikbaar was
Methoden om ontbrekende data te vervangen (imputatie)
- Vervangende en vergelijkbare cases
- Gemiddelde waarde
- Geschatte waarde door regressie (indien er een goed passend regressiemodel is)
- Meervoudige imputatie (eenzelfde case w meerdere keren ingevoerd met telkens een ≠
antwoordmogelijkheid)
- → imputatie k wel grote invloed h op data
1
,Verschil tussen complete case en pairwise deletion (chat gtp)
1. Complete case-analyse (Listwise deletion):
• Bij complete case-analyse w alle observaties verwijderd waarin ontbrekende waarden
voorkomen. Met andere woorden, alleen volledige gevallen w meegenomen in analyse.
• Dit kan eenvoudig zijn om uit te voeren, maar het kan leiden tot een aanzienlijk verlies van
gegevens, vooral als ontbrekende waarden veel voorkomen.
• Het voordeel is dat de analyse wordt uitgevoerd op een dataset zonder ontbrekende
waarden, wat soms resulteert in een betere schatting van de parameters.
2. Pairwise deletion (Pairwise deletion):
• Bij pairwise deletion w ontbrekende waarden alleen weggelaten voor specifieke analyses
waarin ze ontbreken. Met andere woorden, ontbrekende waarden w alleen weggelaten voor
paren van variabelen waarbij ze ontbreken, maar overige gegevens w behouden.
• Dit behoudt meer gegevens dan complete case-analyse en kan dus nuttig zijn wanneer er
veel ontbrekende waarden zijn.
• Echter, het kan leiden tot vertekeningen in de resultaten, vooral als het patroon van
ontbrekende gegevens niet volledig willekeurig is.
In algemeen w complete case-analyse vaak gebruikt wanneer # ontbrekende waarden klein is en er weinig
verlies van gegevens is. Pairwise deletion w vaak gebruikt wanneer # ontbrekende waarden groot is en het
behoud van zoveel mogelijk gegevens belangrijk is, zelfs als dit leidt tot mogelijke vertekeningen.
Werkhypothesen
- Lineariteit
• Grafisch via spreidingsdiagram (scatterplot)
• Pearson correlatie: sterkte vh lineair verband
- Normaliteit
• KS: H0: V = N H1: V ≠ N
o Nadeel: bij kleine steekproef H0 snel aanvaard want onvold bewijs tegen H0 en bij
grote steekproeven snel significante erschil terwijl afwijkingen niet zo sterk z en k n
afgeleid w waar ≠ tov normaliteit zich bevinden
- Homoscedasticiteit: Gelijke spreiding
Levene’s test
- K enkel opgevraagd w bij andere statistische analyses
- Gelijkheid van varianties in ≠ populaties toetsen
- H0: σ1² = σ2² H1: σ1² ≠ σ2²
- Overschrijdingskans p < α → gelijkheid van varianties verwerpen → niet uitgaan van
homoscedasticiteit
- Nadelen
• Kleine steekproeven → H0 niet snel verworpen want onvold bewijs tegen H0
• Grote steekproeven → H0 wel snel verworpen, ookal is ≠ in varianties miniem
→ het ook grafisch nagaan
Data voldoen niet aan hypothesen → mag methode nog w toegepast? → is er niet parametrisch alternatief?
Sommige methoden robuust voor afwijkingen data toch werkhypothesen
2
, 1. WAAROM DATA-ANALYSE
Data-analyse = noodzakelijk voor psychologen
- Cf. data-analyse in de media
- Begrip van + kritische instelling tegenover vakliteratuur
- Kunnen verzamelen/analyseren van data
Obv data analyse vaak causale verbanden maken (zie media), is vaak fout
Corona: verschillende horrorverhalen wereld in gestuurd, fout begrip statistiek, foute analyse van gegevens
waardoor verkeerde dingen wereld in gestuurd
Verkeerdelijk interpreteren data k impact h op wereldgezondheid
Om tot wetenschap te komen gebruik wetenschappelijke methodes
- Data verzamelen
- Als je data hebt moet je er nog iets mee doen
HRM psycholoog
- Bevraging werknemers omtrent jobtevredenheid
- Hoe ga je de data analyseren?
Data-analyse = noodzakelijk voor psychologen
Het helpt je om:
1. Data te organiseren (grafieken,…)
• Data organiseren vraagt veel tijd: vragen niet altijd juist ingevuld, missing data, drop outs…
• Datafile opkuisen!!!
2. Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten)
• kijk naar data, in termen van grafieken en tabellen
• Gebruik visuele methoden (grafieken) voor vormgeven data
3. Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve statistiek, verklaren)
• Data is nooit fout, interpretatie data kan wel fout zijn
4. Theorieën te verifiëren en aan te passen
2. INDUCTIEVE STATISTIEK
Kan vaak niet hele populatie testen
In bepaalde omstandigheden is het nodig om hele populatie te testen → heeft impact op statistiek
Obv steekproef uitspraken over populatie en uitspraken proberen extrapoleren naar populatie
Inductieve statistiek toepassen om algemene
uitspraken over populatie te doen
Van steekproef naar populatie
3
, Schatten: Toetsen:
Steekproef trekken, testen laten ons toe te kijken of dit significant ≠ vd populatie
Uitspraken doen over grotere groepen waar we die grote groep n k testen maar enkel stukje, dan kijken of
dit afwijkt van onze voorspellingen
2.1. BEGRIPPEN
Theorie → Hypothese → Steekproef → Steekproefgrootheden
Steekproefgrootheid (statistiek, stat. grootheid): maat gebaseerd op de gegevens van de steekproef (vb.:
rekenkundig gemiddelde, proportie,…)
- Kan heel veel steekproeven trekken uit populatie, gem zal afwijken
Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling → steekproevenverdeling
- Steekproefgrootheden hebben ook een verdeling
Begint met voorkennis (wetenschappelijke literatuur, theorie), van daaruit hypothesen of onderzoeksvragen
opstellen
Wil deze verifiëren door steekproef te trekken en bep steekproefgrootheden af te leiden
Vertrekken van bepaald idee → belangrijk om data kwalitatief te k interpreteren
- Stel je merkt interactie op, maar tegenovergestelde van wat je theoretisch zou verwachten →
vragen stellen
- Mag niet klakkeloos aannemen dat hetgeen je gevonden hebt de waarheid is
- Moet het contextualiseren: Waarom afwijkend resultaat? Tmm kwaliteit data? Onderzoek niet juist
uitgevoerd? Verkeerde codering waardoor resultaten gebiased? Voorzichtig zijn als resultaten niet in
lijn met verwachtingen
- Aan alle alternatieven hypothesen gedacht → k dat je iets nieuw gevonden hebt
Stel: random steekproef 1 en we berekenen S1, random steekproef 2 (zelfde n) en berekenen S2, etc. tot Sn
- S1, S2, S3, S4, …, Sn
De verdeling van deze steekproefgrootheden = Steekproevenverdeling
- Hierop bootstrapping gebaseerd: iets met data doen om verdeling grootheden te hebben, vb
mensen van groep wisselen, er telkens 1 uithalen en kijken of steekproef stabiel is met 100%, 90%;
80% data (blijven resultaten stabiel met kleinere steekproeven)
Kan uit populatie ≠ steekproeven (samples) trekken, en daarop sample statistics berekenen (sampling)
4
Kort theoretisch overzicht verkennen van data
Voor statistische analyse # dingen bekijken
- Welke data? - Uitschieters?
- Welke verdeling h de data? - Kenmerken schaal?
- Missing values? Oorzaak?
Correlatiecoëfficiënten gevoelig voor uitschieters → het nooit interpreteren zonder spreidingsdiagram
Buitenbeentjes en uitschieters (outliers en extremes)
- ≠ oorzaken extreme waarden
• Invoerfouten → verwijder en
• unieke gevallen → afh doel onderzoek
o algemene tendensen beschrijven → ze eruit halen < dragen n bij aan algemene
tendens
o uitschieter komt voor in representatieve steekproef → k bijdragen om grootte BI en
meetfouten niet te onderschatten → behouden
Ontbrekende data (missing values)
- normaal gezien buiten beschouwing gelaten = complete case (in spss listwise)
- multivariate data analyse → cases m geldige waarnemingen h voor alle variabaleen
- sommige variabelen veel missing values → steekproef mss te klein
- data van alle deelnemers waarvoor min 1 gegeven ontbreekt w buiten beschouwing gelaten
- waarnemingen ontbreken toevallig → geen systematiek → steekproef blijft vold groot (missing
values geen probleem)
- wel systematiek in missing values → k vertekend beeld geven
• vb enquete, mensen met extreme gedachten antwoorden niet → steekproef niet meer
representatief voor populatie
- → nagaan of het toevallig is of er reden voor is
- Als probleem → pairwise deletion aanpak ipv complete case
• Per analyse w alle deelnemers beschouwd waarvoor alle beschouwde variabelen
beschikbaar z
• Voordeel: maximale hoeveelheid beschikbare data w verwerkt
• Nadeel: ≠ analyses geven resultaten weer van wisselende groep deelnemers waarvoor
toevallig bep data beschikbaar was
Methoden om ontbrekende data te vervangen (imputatie)
- Vervangende en vergelijkbare cases
- Gemiddelde waarde
- Geschatte waarde door regressie (indien er een goed passend regressiemodel is)
- Meervoudige imputatie (eenzelfde case w meerdere keren ingevoerd met telkens een ≠
antwoordmogelijkheid)
- → imputatie k wel grote invloed h op data
1
,Verschil tussen complete case en pairwise deletion (chat gtp)
1. Complete case-analyse (Listwise deletion):
• Bij complete case-analyse w alle observaties verwijderd waarin ontbrekende waarden
voorkomen. Met andere woorden, alleen volledige gevallen w meegenomen in analyse.
• Dit kan eenvoudig zijn om uit te voeren, maar het kan leiden tot een aanzienlijk verlies van
gegevens, vooral als ontbrekende waarden veel voorkomen.
• Het voordeel is dat de analyse wordt uitgevoerd op een dataset zonder ontbrekende
waarden, wat soms resulteert in een betere schatting van de parameters.
2. Pairwise deletion (Pairwise deletion):
• Bij pairwise deletion w ontbrekende waarden alleen weggelaten voor specifieke analyses
waarin ze ontbreken. Met andere woorden, ontbrekende waarden w alleen weggelaten voor
paren van variabelen waarbij ze ontbreken, maar overige gegevens w behouden.
• Dit behoudt meer gegevens dan complete case-analyse en kan dus nuttig zijn wanneer er
veel ontbrekende waarden zijn.
• Echter, het kan leiden tot vertekeningen in de resultaten, vooral als het patroon van
ontbrekende gegevens niet volledig willekeurig is.
In algemeen w complete case-analyse vaak gebruikt wanneer # ontbrekende waarden klein is en er weinig
verlies van gegevens is. Pairwise deletion w vaak gebruikt wanneer # ontbrekende waarden groot is en het
behoud van zoveel mogelijk gegevens belangrijk is, zelfs als dit leidt tot mogelijke vertekeningen.
Werkhypothesen
- Lineariteit
• Grafisch via spreidingsdiagram (scatterplot)
• Pearson correlatie: sterkte vh lineair verband
- Normaliteit
• KS: H0: V = N H1: V ≠ N
o Nadeel: bij kleine steekproef H0 snel aanvaard want onvold bewijs tegen H0 en bij
grote steekproeven snel significante erschil terwijl afwijkingen niet zo sterk z en k n
afgeleid w waar ≠ tov normaliteit zich bevinden
- Homoscedasticiteit: Gelijke spreiding
Levene’s test
- K enkel opgevraagd w bij andere statistische analyses
- Gelijkheid van varianties in ≠ populaties toetsen
- H0: σ1² = σ2² H1: σ1² ≠ σ2²
- Overschrijdingskans p < α → gelijkheid van varianties verwerpen → niet uitgaan van
homoscedasticiteit
- Nadelen
• Kleine steekproeven → H0 niet snel verworpen want onvold bewijs tegen H0
• Grote steekproeven → H0 wel snel verworpen, ookal is ≠ in varianties miniem
→ het ook grafisch nagaan
Data voldoen niet aan hypothesen → mag methode nog w toegepast? → is er niet parametrisch alternatief?
Sommige methoden robuust voor afwijkingen data toch werkhypothesen
2
, 1. WAAROM DATA-ANALYSE
Data-analyse = noodzakelijk voor psychologen
- Cf. data-analyse in de media
- Begrip van + kritische instelling tegenover vakliteratuur
- Kunnen verzamelen/analyseren van data
Obv data analyse vaak causale verbanden maken (zie media), is vaak fout
Corona: verschillende horrorverhalen wereld in gestuurd, fout begrip statistiek, foute analyse van gegevens
waardoor verkeerde dingen wereld in gestuurd
Verkeerdelijk interpreteren data k impact h op wereldgezondheid
Om tot wetenschap te komen gebruik wetenschappelijke methodes
- Data verzamelen
- Als je data hebt moet je er nog iets mee doen
HRM psycholoog
- Bevraging werknemers omtrent jobtevredenheid
- Hoe ga je de data analyseren?
Data-analyse = noodzakelijk voor psychologen
Het helpt je om:
1. Data te organiseren (grafieken,…)
• Data organiseren vraagt veel tijd: vragen niet altijd juist ingevuld, missing data, drop outs…
• Datafile opkuisen!!!
2. Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten)
• kijk naar data, in termen van grafieken en tabellen
• Gebruik visuele methoden (grafieken) voor vormgeven data
3. Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve statistiek, verklaren)
• Data is nooit fout, interpretatie data kan wel fout zijn
4. Theorieën te verifiëren en aan te passen
2. INDUCTIEVE STATISTIEK
Kan vaak niet hele populatie testen
In bepaalde omstandigheden is het nodig om hele populatie te testen → heeft impact op statistiek
Obv steekproef uitspraken over populatie en uitspraken proberen extrapoleren naar populatie
Inductieve statistiek toepassen om algemene
uitspraken over populatie te doen
Van steekproef naar populatie
3
, Schatten: Toetsen:
Steekproef trekken, testen laten ons toe te kijken of dit significant ≠ vd populatie
Uitspraken doen over grotere groepen waar we die grote groep n k testen maar enkel stukje, dan kijken of
dit afwijkt van onze voorspellingen
2.1. BEGRIPPEN
Theorie → Hypothese → Steekproef → Steekproefgrootheden
Steekproefgrootheid (statistiek, stat. grootheid): maat gebaseerd op de gegevens van de steekproef (vb.:
rekenkundig gemiddelde, proportie,…)
- Kan heel veel steekproeven trekken uit populatie, gem zal afwijken
Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling → steekproevenverdeling
- Steekproefgrootheden hebben ook een verdeling
Begint met voorkennis (wetenschappelijke literatuur, theorie), van daaruit hypothesen of onderzoeksvragen
opstellen
Wil deze verifiëren door steekproef te trekken en bep steekproefgrootheden af te leiden
Vertrekken van bepaald idee → belangrijk om data kwalitatief te k interpreteren
- Stel je merkt interactie op, maar tegenovergestelde van wat je theoretisch zou verwachten →
vragen stellen
- Mag niet klakkeloos aannemen dat hetgeen je gevonden hebt de waarheid is
- Moet het contextualiseren: Waarom afwijkend resultaat? Tmm kwaliteit data? Onderzoek niet juist
uitgevoerd? Verkeerde codering waardoor resultaten gebiased? Voorzichtig zijn als resultaten niet in
lijn met verwachtingen
- Aan alle alternatieven hypothesen gedacht → k dat je iets nieuw gevonden hebt
Stel: random steekproef 1 en we berekenen S1, random steekproef 2 (zelfde n) en berekenen S2, etc. tot Sn
- S1, S2, S3, S4, …, Sn
De verdeling van deze steekproefgrootheden = Steekproevenverdeling
- Hierop bootstrapping gebaseerd: iets met data doen om verdeling grootheden te hebben, vb
mensen van groep wisselen, er telkens 1 uithalen en kijken of steekproef stabiel is met 100%, 90%;
80% data (blijven resultaten stabiel met kleinere steekproeven)
Kan uit populatie ≠ steekproeven (samples) trekken, en daarop sample statistics berekenen (sampling)
4