Enkelvoudige lineaire regressie
Spreidingsdiagram Grafiek selecteren Invoegen > grafiek (met bolletjes > de
eerste grafiek kiezen
Waardes toevoegen RM > gegevens selecteren > reeks
toevoegen >
• Naam: ‘x-waarde’ vs ‘y-waarde’
• X-waarden: alle x-waarden
selecteren
• Y-waarden: alle y-waarden
selecteren
• OK
Titels aanpassen naar naam x-waarden en
y-waarden
Grenzen van de assen RM op as > as opmaken > min. en max.
verbreden aanpassen
Regressierechte RM op een punt in de grafiek > trendlijn
toevoegen > lineair, vgl. weergeven V, R-
kwadraat weergeven V
Correlatie Correlatie [-1, 1] ‘=CORRELATIE (x-waarden; y-waarden)
Sdev. X ‘=stdev.S (x-waarden)’
Sdev. Y ‘=stdev.S (y-waarden)’
Gemiddelde X ‘=gemiddelde (x-waarden)’
Gemiddelde Y ‘=gemiddelde (y-waarden)’
b ‘=correlatie* sdev. Y / sdev. X’
a ‘=gemiddelde Y – b*gemiddelde X’
Lineaire Voorspelde y-waarden Kolom naast y-waarden
regressievergelijking (Y kapje) ‘=a + b*x-waarde’
opstellen (voorspelling y obv → formule doortrekken
a + bX regressierechte)
e • Kolom naast voorspelde y-
(residu/voorspellingsfout) waarden
• ‘y-waarde – voorspelde y-waarde’
• Som nemen (ongeveer gelijk aan
0)
1
, Regressie-analyse • Gegevens > gegevensanalyse* >
regressie > OK
• Invoerbereik: x-waarden
selecteren; y-waarden selecteren
(naam van kolom mee selecteren!)
> labels V > storingen V >
uitvoerbereik (cel kiezen in je
werkblad) > OK
Meervoudige Correlatie tussen werkelijke y-waarden en
correlatiecoëfficiënt voorspelde y-waarden
R² [0,1] Proportie variantie van Y die wordt
verklaard door de regressierechte
Standaardfout van de ‘=wortel (=kwadratensom e-waarden / n-
schatting 2)’
(standaardafwijking van → 68% van e zal tussen -se en se liggen
residuen) (als je x2 doet: 95%, als je x3 doet: 99.7%)
* als je dit knopje niet hebt: bestand > opties > invoegtoepassingen > start > analysis
toolpack V > oplossen invoegtoepassingen V > OK
Meervoudige lineaire regressie
(zelfde als enkel voudige linaire regressie, maar nu met twee x-waarden)
Mogelijkheden modelleren
Dummy-variabelen
(bv. is er sprake van discriminatie tussen mannen en vrouwen wat betreft het salaris?
Is dit afhankelijk van opleidingsniveau?): categorische variabele als verklarende
variabele opnemen in je model
Gemiddelde van de 2 Deze analyse is niet ‘=gemiddelde.als (waarden categorie 1;
categorieën van de helemaal correct, “naam categorie 1”; y-waarden)
categorische want je moet
variabele vergelijken rekening houden ‘=gemiddelde.als (waarden categorie 2;
met andere “naam categorie 2”; y-waarden)
variabelen (bv.
opleidingsniveau en
aantal jaar ervaring)
2
, - Eerlijke
vergelijking:
mannen en
vrouwen met een
zelfde opleiding en
zelfde aantal jaar
ervaring vergelijken
met elkaar
Lineaire regressie c categorieën, dan Stel 2 categorieën: 1 (2-1) dummy
doen door dummy’s c-1 dummy-
aan te maken voor de variabelen Stel categorie 1 = 1 (niet-referentiecategorie)
categorische en categorie 2 = 0 (referentiecategorie)
variabelen → kijken of de
observatie tot de ‘=als (1e cel categorische variabele = “naam
Dummy-variabele referentiecategorie of cijfer N-Ref”; 1; 0)’
aanmaken voor alle behoort
categorische 0: niet; 1: wel Stel 5 categorieën: 4 (5-1) dummy
variabelen
Bv. Education categorieën:
• EdHs: 1
• EdSc: 2
• EdBach: 3
• EdSG: 4
• EdGrad: 5
EdHs = referentiecategorie (kiezen)
• EdSc: ‘=als (1e cel categorische
variabele = 2; 1; 0)’
• EdBach: ‘=als (1e cel categorische
variabele = 3; 1; 0)’
• EdSG: ‘=als (1e cel categorische
variabele = 4; 1; 0)’
• EdGrad ‘=als (1e cel categorische
variabele = 5; 1; 0)’
Gegevensanalyse • Gegevens > gegevensanalyse* >
regressie > OK
• Invoerbereik: x-waarden selecteren
(neem dummy); y-waarden
selecteren (naam van kolom mee
selecteren!) > labels V > storingen V >
uitvoerbereik (cel kiezen in je
werkblad) > OK
Interpretatie bv. age: per jaar dat je ouder wordt, zal je
coëfficiënten 52.86 dollar extra verdienen
3
, bv. EdSC (dummy, dus vergelijken met
referentiecategorie): iemand met een Sc
education zal 232.7 dollar extra verdienen
dan iemand met een HS education
…
P-waarde Is de variabele nuttig (significant) bij het
verklaren van de afhankelijke variabele?)
Bv. Gender heel kleine P dus statistisch
significant
Interactie
Lineaire regressie Vereenvoudigde Y = a + b1*X1 + b2*X2 + b3*X1*X2
met interactieterm regressievergelijking
opstellen Stel X2 = 0:
a + b1*X1
Stel X2 = 1:
a + b1*X1 + b2 + b3*X1
(a + b2) + (b1 + b3)*X1
Interactieterm Nieuwe kolom: X1 * X2
‘=X1 * dummy X2’
Gegevensanalyse • Gegevens > gegevensanalyse* >
regressie > OK
• Invoerbereik: x-waarden selecteren
(neem dummy en interactieterm
mee); y-waarden selecteren (naam
van kolom mee selecteren!) > labels V
> storingen V > uitvoerbereik (cel
kiezen in je werkblad) > OK
Interpretatie Bv. verschillende toename in loon (y) per
coëfficiënten extra jaar ervaring (X1) voor mannen en
vrouwen (X2)
• Bij vrouwen (referentiecategorie van
X2): stijging van 279 dollar in het loon
(y) per extra jaar ervaring (X1)
• Bij mannen (X2) stijging van 1527
4