pearson r feiten
- symbool voor correlaties = r
- pearson r is geschikt bij interval en ratio (numeriek)
- de samenhang moet lineair zijn voor pearson r
- de correlatiecoëfficiënt ligt tussen -1 en 1
- het maakt niet uit welke variabele X is en welke Y
● Correlatie & causaliteit
correlatie = is er samenhang tussen 2 variabelen?
causaliteit = is er een effect? hiervoor moet je een experiment uitvoeren waar strenge
voorwaarden aan hangen, namelijk
- covariantie: variabelen moeten samenhangen
- directionaliteit: oorzaak gaat vooraf aan gevolg
- interne validiteit: alternatieve verklaringen uitsluiten
● Scatterplots
als je het hebt over een samenhang heb je het over een
- richting: positief vs negatief
- sterkte: hoe meer de punten op een rechte lijn liggen, hoe sterker het verband
- vorm: lineair / niet lineair, homogeen / heterogeen -> zie je een puntenwolk of
meerdere clusters
- uitbijters
, ● Covariantie
covariantie (sxy) = de mate waarin 2 variabelen samen variëren
als de waarde positief is is het verband positief en andersom
geeft info over sterkte & richting van de samenhang
- nadeel: moeilijk te interpreteren, want de waarde is afh van de meeteenheid
- oplossing: standaardiseer de covariantie
● Pearson r
pearson r:
- gestandaardiseerde maat die lineaire verband beschrijft tussen 2 kwantitatieve
(=numerieke) variabelen
- de waarde ligt altijd tussen -1 en +1
alternatief:
z -> standaardscores
voordeel: makkelijker te interpreteren want de waarde is niet afh van meeteenheid
● Factoren die pearson r beïnvloeden
1. niet lineaire verbanden. daarom maak je eerst een scatterplot -> als je ziet dat het
niet lineair is dan is de pearson r geen goed idee
2. uitbijters, kan de sterkte van de correlatie beïnvloeden. plot met en zonder uitbijters
en wees hier transparant over
3. heterogene subgroepen. als er meerdere clusters zijn moet je hier nader naar kijken
4. restriction of range. stel je bekijkt maar een beperkt deel van de scores, dan mis je
een groot deel van de samenhang. dit kan een vertekend beeld geven
( als je meteen ziet of het een positief of negatief verband is, dan kun je ervan uit gaan dat
het verband redelijk sterk is )
, ● Voorbeeld handmatige pearson r berekening
de z score geeft aan hoeveel standaarddeviaties de score afwijkt van het gemiddelde
● alternatieve correlatiecoëfficiënten
meest gebruikt: pearson correlatiecoëfficiënt r. maar dit kan alleen bij numerieke variabelen
maar er zijn meer varianten, afhankelijk van meetniveau
dichotoom = variabelen met 2 mogelijke waarden
al deze correlaties kan je berekenen met
1. de pearson r procedure (met de z scores)
2. specifieke formules, maar deze gebruiken we alleen voor de phi coëfficiënt
● spearman’s rho (rs)
beschrijft samenyang tussen 2 ordinale/ gerangordende variabele
- als scores nog geen rangscores zijn: ze ze om in rangnummers
- dan: gebruik pearson correlatie formule om rs te berekenen
rs is robuuste (kan ermee omgaan) variant van pearson r bij uitbijters en/of zwakke
niet-lineariteit
, - voorbeeld handmatige berekenen spearman’s rho
● punt-biseriële correlatie (rpb)
beschrijft samenhang tussen kwantitatieve en dichotome variabele
gebruik pearson correlatie formule om rpb te berekenen
NB teken van correlatie hangt af van wijze waarop 0 en 1 zijn toegewezen aan groepen
- we spreken daarom zelden van een positief en negatief verband bij een
punt-biseriële correlatie want dit verandert als je het omdraait
-> rpb = wortel van eta squared
condities matchen -> houdt in dat bepaalde condities ongeveer gelijk zijn zodat je bepaalde
effecten uitsluit. bv matchen op leeftijd, geslacht
- voorbeeld scatterplot punt-biseriële correlatie