Uitwerking kennisclips Statistiek B
Module 1 – Correlatie en lineaire regressie
Video 1 – Spreidingsdiagram en correlatie coëfficiënt
In statistiek wordt er gekeken naar de samenhang tussen continue variabelen, en/of de samenhang tussen
continue en categorische variabelen.
Samenhang bestuderen
• Spreidingsdiagram (of scatterplot)
o Grafische weergave samenhang
• Correlatiecoëfficiënt en correlatieanalyse
o Maat voor sterkte van de samenhang
• Regressie analyse
o Methode om de samenhang tussen 2 (of meer) variabelen te beschrijven/bepalen met
behulp van een functionele relatie
o Schat/tekent lijn die de gegevens in het spreidingsdiagram zo goed mogelijk beschrijft.
Spreidingsdiagram
Op y-as afhankelijke variabele, op x-as onafhankelijke (verklaarbare) variabele.
Correlatiecoëfficiënt – algemeen
• Maat voor lineaire samenhang tussen 2 variabelen.
• Kenmerken
o Onderzoekt geen oorzakelijk/causaal verband
o Variabelen tenminste op intervalniveau gemeten
o Dimensie loze index (wordt niet in bepaalde eenheden gegeven, bv temperatuur, graden)
o Tussen -1 en +1
Correlatiecoëfficiënt – interpretatie
• Aantal standaardafwijkingen verandering in y voor een
standaardafwijking verandering in x
o R = +1 of -1 → responses perfect positieve of negatieve lineaire samenhang (1 rechte lijn)
o R = 0 → geen lineaire samenhang
o 0 < r < +1 of -1 < r < 0 -> responses positief/negatief lineaire samenhang
Correlatie kan geïnterpreteerd worden als het aantal standaardafwijkingen veranderingen in y, bij een
standaardafwijking verandering in x.
Video 2 – Lineaire regressieanalyse
Regressie analyse – algemeen
• Methode om de samenhang tussen 2 (of meer) variabelen te beschrijven met behulp van een
functionele relatie (= de regressievergelijking).
• Techniek levert de ‘best passende’ lijn die de puntenwolk (zie spreidingsdiagram) zo goed mogelijk
beschrijft om onder andere
o Voorspellingen te doen
o Theorie te vormen/te toetsen
Regressie analyse – onderdelen
Je hebt verschillende regressieanalyses
• Enkelvoudige lineaire regressie (wordt in deze video opgenomen)
o Wordt 1 verklaarbare (onafhankelijke) variabele in het regressiemodel opgenomen
• Meervoudige lineaire regressie (volgende video)
o Meer verklaarbare variabelen
• Logistische regressie (college 2)
o Binaire afhankelijke variabele
• Ordinale regressie & multinomiale regressie (worden niet behandeld)
1
,Keuze van het regressie-model hangt af van het meetniveau van de afhankelijke variabele.
Enkelvoudige lineaire regressie
Beschrijft verband tussen 2 variabelen met lineaire vergelijking.
De best passende lijn wordt bepaald aan de hand van een reeks meetpunten.
Y’ = de verwachte waarde
Voor individuele voorspellingen
Yi’ = voorspellende waarde
Hoe wordt de best passende lijn bepaald
• Fout in voorspelling: residuen (afstand van de
meetpunten tot voorspelde regressielijn)
• Gezocht: de lijn waarbij het kwadraat van de afstanden
van alle punten tot die lijn zo klein
mogelijk is
o Som van de kwadraten van
alle residuen het kleinst is
o Het kleinste
kwadratencriterium
2
, Video 3 – Voorbeeld lineaire regressieanalyse
Hoe groter
de
verklaarde
variantie,
hoe beter
de
regressielijn
bij de
puntenwolk
past.
T kan worden afgelezen
uit SPSS output.
H0 is geen verband/effect.
Richtingscoëfficiënt (B1) gelijk is aan B0.
Ha er is wel een verband.
Wat betekent de coëfficiënt B0?
De waarde van y bij een waarde van x gelijk aan 0.
3
Module 1 – Correlatie en lineaire regressie
Video 1 – Spreidingsdiagram en correlatie coëfficiënt
In statistiek wordt er gekeken naar de samenhang tussen continue variabelen, en/of de samenhang tussen
continue en categorische variabelen.
Samenhang bestuderen
• Spreidingsdiagram (of scatterplot)
o Grafische weergave samenhang
• Correlatiecoëfficiënt en correlatieanalyse
o Maat voor sterkte van de samenhang
• Regressie analyse
o Methode om de samenhang tussen 2 (of meer) variabelen te beschrijven/bepalen met
behulp van een functionele relatie
o Schat/tekent lijn die de gegevens in het spreidingsdiagram zo goed mogelijk beschrijft.
Spreidingsdiagram
Op y-as afhankelijke variabele, op x-as onafhankelijke (verklaarbare) variabele.
Correlatiecoëfficiënt – algemeen
• Maat voor lineaire samenhang tussen 2 variabelen.
• Kenmerken
o Onderzoekt geen oorzakelijk/causaal verband
o Variabelen tenminste op intervalniveau gemeten
o Dimensie loze index (wordt niet in bepaalde eenheden gegeven, bv temperatuur, graden)
o Tussen -1 en +1
Correlatiecoëfficiënt – interpretatie
• Aantal standaardafwijkingen verandering in y voor een
standaardafwijking verandering in x
o R = +1 of -1 → responses perfect positieve of negatieve lineaire samenhang (1 rechte lijn)
o R = 0 → geen lineaire samenhang
o 0 < r < +1 of -1 < r < 0 -> responses positief/negatief lineaire samenhang
Correlatie kan geïnterpreteerd worden als het aantal standaardafwijkingen veranderingen in y, bij een
standaardafwijking verandering in x.
Video 2 – Lineaire regressieanalyse
Regressie analyse – algemeen
• Methode om de samenhang tussen 2 (of meer) variabelen te beschrijven met behulp van een
functionele relatie (= de regressievergelijking).
• Techniek levert de ‘best passende’ lijn die de puntenwolk (zie spreidingsdiagram) zo goed mogelijk
beschrijft om onder andere
o Voorspellingen te doen
o Theorie te vormen/te toetsen
Regressie analyse – onderdelen
Je hebt verschillende regressieanalyses
• Enkelvoudige lineaire regressie (wordt in deze video opgenomen)
o Wordt 1 verklaarbare (onafhankelijke) variabele in het regressiemodel opgenomen
• Meervoudige lineaire regressie (volgende video)
o Meer verklaarbare variabelen
• Logistische regressie (college 2)
o Binaire afhankelijke variabele
• Ordinale regressie & multinomiale regressie (worden niet behandeld)
1
,Keuze van het regressie-model hangt af van het meetniveau van de afhankelijke variabele.
Enkelvoudige lineaire regressie
Beschrijft verband tussen 2 variabelen met lineaire vergelijking.
De best passende lijn wordt bepaald aan de hand van een reeks meetpunten.
Y’ = de verwachte waarde
Voor individuele voorspellingen
Yi’ = voorspellende waarde
Hoe wordt de best passende lijn bepaald
• Fout in voorspelling: residuen (afstand van de
meetpunten tot voorspelde regressielijn)
• Gezocht: de lijn waarbij het kwadraat van de afstanden
van alle punten tot die lijn zo klein
mogelijk is
o Som van de kwadraten van
alle residuen het kleinst is
o Het kleinste
kwadratencriterium
2
, Video 3 – Voorbeeld lineaire regressieanalyse
Hoe groter
de
verklaarde
variantie,
hoe beter
de
regressielijn
bij de
puntenwolk
past.
T kan worden afgelezen
uit SPSS output.
H0 is geen verband/effect.
Richtingscoëfficiënt (B1) gelijk is aan B0.
Ha er is wel een verband.
Wat betekent de coëfficiënt B0?
De waarde van y bij een waarde van x gelijk aan 0.
3