Randvoorwaarden regressieanalyse (en praktische oplossingen)
1.1 LINEARITEIT
- associaties tussen variabelen vertonen lineair karakter
- … maar er zijn heel wat gevallen waarbij deze associatie door een andere mathematische functie wordt beschreven
→ toepassing van lineair regressiemodel niet langer geschikt
gevaar van ‘curve fitting’: keuze van mathematische functie moet gefundeerd zijn, niet enkel o.b.v. scatterplot
→ een niet-lineaire regressie mag enkel toegepast worden
indien men aan de relevantie van een lineair verband kan twijfelen én er een gefundeerd alternatief is
- a priori: er zijn indicaties dat het verband geen lineair verloop kent
- a posteriori: de lineaire regressie blijkt geen geschikte weerspiegeling van het verband
Hoe detecteren?
1. visuele interpretatie van het scatterplot (subjectief)
2. analyse van de residuen → residuenplot = puntenwolk met de gestandaardiseerde residuen van de lineaire
regressie geplot t.o.v. de geobserveerde waarde van de afhankelijke variabele
- pos.: onderschatting
- neg.: overschatting
1.2 BIJKOMENDE ASSUMPTIES
parametrische toets
= statistische toets waarbij de assumptie wordt gemaakt dat de onderliggende verdeling van de variabelen bekend is
1. normaal verdeelde data (+ hieraan gekoppeld: afwezigheid van uitschieters)
2. homogeniteit van variantie
3. minstens interval data
4. onafhankelijke observaties
1.3 NORMALITEIT
1. visuele interpretatie van het histogram t.o.v. normale verdeling
2. visuele interpretatie van het Q-Q plot
(zet de geobserveerde data uit t.o.v. de verwachte waarde voor elke observatie volgens een bepaalde verdeling)
3. Kolmogorov-Smirnov test
centrale limiet theorie: assumptie van normaliteit bij grote steekproef (min. 30 observaties)
1.4 AFWEZIGHEID UITSCHIETERS (enkel verwijdering van onjuiste metingen)
1. visueel via boxplot
2. toepassen vuistregel > 3 standaardafwijkingen van het gem.
1.5 HOMOGENITEIT VAN VARIANTIE
homoscedasticiteit = variantie blijft gelijk over de volledige range van de variabele
visuele interpretatie van plots (ZPRED t.o.v. ZRESID): random puntenwolk → homoscedasticiteit
1.6 OPLOSSINGEN
specifiek voor uitschieters lineariteit, normaliteit, homoscedasticiteit
1. negeer uitschieters 1. data transformeren
2. observatie uit de dataset verwijderen 2. niet-parametrische statistieken
3. variabele uit de dataset verwijderen
4. ‘imputing values’
5. transformeren
,PCA en factoranalyse
beslissingen werkwijze
2.1 MULTICOLLINEARITEIT
onderling niet gecorreleerd
- ‘Variance inflation factor’ (VIF) = 1 / tolerantie (= proportie variantie in een onafhankelijke variabele die niet
verklaard wordt door de andere onafhankelijke variabelen)
- vuistregel: VIF > 5 → duidt op multicollineariteit
- oplossing: 1 van de hoog gecorreleerde variabelen verwijderen o.b.v. onderliggende processen/theorieën
en de grootte van de VIF → enkel aan te raden indien het gaat om een beperkt aantal onafhankelijke variabelen
2.2 OPLOSSING 2: FACTORANALYSE
multivariate analysetechniek die gebruikt wordt om een ‘grote’ set geobserveerde variabelen te reduceren
tot een ‘kleinere’ set van nieuwe variabelen (= factoren) die zo veel mogelijk van de originele informatie bevat
2.3 FACTORANALYSE: BASISPRINCIPE
- assen x1, x2, x3 = originele variabelen
- ellips = voorstelling van de nieuwe factoren
- langste as van de ellips = 1e nieuwe factor
- korte as van de ellips = 2e nieuwe factor
- assen staan loodrecht op elkaar → nieuwe factoren onderling niet gecorreleerd
- factoren = lineaire combinatie van de oorspronkelijke geobserveerde variabelen en de wegingscoëfficiënten
, 2.4 EXTRACTIE VAN FACTOREN
aantal factoren/componenten
1. Kaiser-criterium: ~ eigenwaarde λ > 1
λ = kwadraat van de standaardafwijking van de component
→ hoeveelheid variantie van de oorspronkelijke variabelen die verklaard wordt door deze component
λ > 1: component verklaart meer variantie dan de oorspronkelijke variabele
λ < 1: component verklaart minder variantie dan de oorspronkelijke variabele
2. screeplot → knikpunt/elleboog
3. ~ min. 75% verklaarde variantie (cum.) → ∑ (alle eigenwaarden) = aantal originele variabelen
4. interpretatie factor/componentladingen
componentlading = correlatie tussen de originele variabele en de nieuwe component
→ ‘belangrijke’ ladingen: vaak wordt cut-off ingesteld op 0,3
→ per component: ∑ (ladingen)² = eigenwaarde
componentscore = score voor elke observatie op de nieuwe componenten
communaliteit
= deel van de variantie in de oorspronkelijke variabele dat verklaard wordt door alle componenten samen
= ∑ (lading van de oorspronkelijke variabele op elke component)²
rotatie
orthogonaal: totale % verklaarde variantie blijft hetzelfde, maar wordt iets anders verdeeld over de factoren
oblique: % verklaarde variantie per factor kan NIET langer bepaald worden
omdat de factoren gecorreleerd zijn met elkaar (en dus verklaarde variantie “delen” met elkaar)
2.6 BETROUWBAARHEID
1. Split-half methode: split de database in 2 random helften, doe de factoranalyse voor beide helften
en bereken de factorscores, en tenslotte de correlatie tussen beide sets van factorscores
2. Cronbach’s Alpha: split de database in alle mogelijke helften, bereken telkens de factorscores,
vervolgens de correlaties en uiteindelijk de gemiddelde correlatie voor alle mogelijke ‘splits’ → α > 0,7
1.1 LINEARITEIT
- associaties tussen variabelen vertonen lineair karakter
- … maar er zijn heel wat gevallen waarbij deze associatie door een andere mathematische functie wordt beschreven
→ toepassing van lineair regressiemodel niet langer geschikt
gevaar van ‘curve fitting’: keuze van mathematische functie moet gefundeerd zijn, niet enkel o.b.v. scatterplot
→ een niet-lineaire regressie mag enkel toegepast worden
indien men aan de relevantie van een lineair verband kan twijfelen én er een gefundeerd alternatief is
- a priori: er zijn indicaties dat het verband geen lineair verloop kent
- a posteriori: de lineaire regressie blijkt geen geschikte weerspiegeling van het verband
Hoe detecteren?
1. visuele interpretatie van het scatterplot (subjectief)
2. analyse van de residuen → residuenplot = puntenwolk met de gestandaardiseerde residuen van de lineaire
regressie geplot t.o.v. de geobserveerde waarde van de afhankelijke variabele
- pos.: onderschatting
- neg.: overschatting
1.2 BIJKOMENDE ASSUMPTIES
parametrische toets
= statistische toets waarbij de assumptie wordt gemaakt dat de onderliggende verdeling van de variabelen bekend is
1. normaal verdeelde data (+ hieraan gekoppeld: afwezigheid van uitschieters)
2. homogeniteit van variantie
3. minstens interval data
4. onafhankelijke observaties
1.3 NORMALITEIT
1. visuele interpretatie van het histogram t.o.v. normale verdeling
2. visuele interpretatie van het Q-Q plot
(zet de geobserveerde data uit t.o.v. de verwachte waarde voor elke observatie volgens een bepaalde verdeling)
3. Kolmogorov-Smirnov test
centrale limiet theorie: assumptie van normaliteit bij grote steekproef (min. 30 observaties)
1.4 AFWEZIGHEID UITSCHIETERS (enkel verwijdering van onjuiste metingen)
1. visueel via boxplot
2. toepassen vuistregel > 3 standaardafwijkingen van het gem.
1.5 HOMOGENITEIT VAN VARIANTIE
homoscedasticiteit = variantie blijft gelijk over de volledige range van de variabele
visuele interpretatie van plots (ZPRED t.o.v. ZRESID): random puntenwolk → homoscedasticiteit
1.6 OPLOSSINGEN
specifiek voor uitschieters lineariteit, normaliteit, homoscedasticiteit
1. negeer uitschieters 1. data transformeren
2. observatie uit de dataset verwijderen 2. niet-parametrische statistieken
3. variabele uit de dataset verwijderen
4. ‘imputing values’
5. transformeren
,PCA en factoranalyse
beslissingen werkwijze
2.1 MULTICOLLINEARITEIT
onderling niet gecorreleerd
- ‘Variance inflation factor’ (VIF) = 1 / tolerantie (= proportie variantie in een onafhankelijke variabele die niet
verklaard wordt door de andere onafhankelijke variabelen)
- vuistregel: VIF > 5 → duidt op multicollineariteit
- oplossing: 1 van de hoog gecorreleerde variabelen verwijderen o.b.v. onderliggende processen/theorieën
en de grootte van de VIF → enkel aan te raden indien het gaat om een beperkt aantal onafhankelijke variabelen
2.2 OPLOSSING 2: FACTORANALYSE
multivariate analysetechniek die gebruikt wordt om een ‘grote’ set geobserveerde variabelen te reduceren
tot een ‘kleinere’ set van nieuwe variabelen (= factoren) die zo veel mogelijk van de originele informatie bevat
2.3 FACTORANALYSE: BASISPRINCIPE
- assen x1, x2, x3 = originele variabelen
- ellips = voorstelling van de nieuwe factoren
- langste as van de ellips = 1e nieuwe factor
- korte as van de ellips = 2e nieuwe factor
- assen staan loodrecht op elkaar → nieuwe factoren onderling niet gecorreleerd
- factoren = lineaire combinatie van de oorspronkelijke geobserveerde variabelen en de wegingscoëfficiënten
, 2.4 EXTRACTIE VAN FACTOREN
aantal factoren/componenten
1. Kaiser-criterium: ~ eigenwaarde λ > 1
λ = kwadraat van de standaardafwijking van de component
→ hoeveelheid variantie van de oorspronkelijke variabelen die verklaard wordt door deze component
λ > 1: component verklaart meer variantie dan de oorspronkelijke variabele
λ < 1: component verklaart minder variantie dan de oorspronkelijke variabele
2. screeplot → knikpunt/elleboog
3. ~ min. 75% verklaarde variantie (cum.) → ∑ (alle eigenwaarden) = aantal originele variabelen
4. interpretatie factor/componentladingen
componentlading = correlatie tussen de originele variabele en de nieuwe component
→ ‘belangrijke’ ladingen: vaak wordt cut-off ingesteld op 0,3
→ per component: ∑ (ladingen)² = eigenwaarde
componentscore = score voor elke observatie op de nieuwe componenten
communaliteit
= deel van de variantie in de oorspronkelijke variabele dat verklaard wordt door alle componenten samen
= ∑ (lading van de oorspronkelijke variabele op elke component)²
rotatie
orthogonaal: totale % verklaarde variantie blijft hetzelfde, maar wordt iets anders verdeeld over de factoren
oblique: % verklaarde variantie per factor kan NIET langer bepaald worden
omdat de factoren gecorreleerd zijn met elkaar (en dus verklaarde variantie “delen” met elkaar)
2.6 BETROUWBAARHEID
1. Split-half methode: split de database in 2 random helften, doe de factoranalyse voor beide helften
en bereken de factorscores, en tenslotte de correlatie tussen beide sets van factorscores
2. Cronbach’s Alpha: split de database in alle mogelijke helften, bereken telkens de factorscores,
vervolgens de correlaties en uiteindelijk de gemiddelde correlatie voor alle mogelijke ‘splits’ → α > 0,7