Samenvatting Thema 4 Inleiding in de data analyse
Mirjam Haasnoot
4.1 Het verband tussen twee interval variabelen:
Een samenhang tussen twee reeksen van waarnemingsgetallen, wordt ook wel correlatie
genoemd.
Positieve correlatie: Bv hoe groter iemand is, hoe groter de schoenmaat.
Negatieve correlatie: Bv hoe warmer het buiten het is, hoe minder energie er wordt
verbruikt.
Correlatie is een statistisch verband, geen causaal verband.
Van univariaat naar bivariaat:
Interesse in de relaties tussen variabelen is omdat we de wereld graag willen begrijpen. Met
een scatterplot kun je het verband visueel maken.
Elk stipje representeert een deelnemer/onderzoekseenheid. De twee meetwaarden van die
deelnemer op de variabelen, bepalen de positie van het stipje.
Om te bepalen of er een positief of negatief verband is, kan je een elips tekenen met een lijn
erin.
Bij een positieve lijn gaat de lijn van linksonder naar rechtsboven. Bij een negatieve verband
gaat de lijn van linksboven naar rechtsonder.
Om iets te zeggen over de populatie is een scatterplot heel lastig, we hebben hiervoor de
steekproevenverdeling nodig. Dit kunnen we maken met getallen maar niet met plaatjes.
Een scatterplot samenvatten in een getal heet correlatie coëfficiënt.
Mirjam Haasnoot
4.1 Het verband tussen twee interval variabelen:
Een samenhang tussen twee reeksen van waarnemingsgetallen, wordt ook wel correlatie
genoemd.
Positieve correlatie: Bv hoe groter iemand is, hoe groter de schoenmaat.
Negatieve correlatie: Bv hoe warmer het buiten het is, hoe minder energie er wordt
verbruikt.
Correlatie is een statistisch verband, geen causaal verband.
Van univariaat naar bivariaat:
Interesse in de relaties tussen variabelen is omdat we de wereld graag willen begrijpen. Met
een scatterplot kun je het verband visueel maken.
Elk stipje representeert een deelnemer/onderzoekseenheid. De twee meetwaarden van die
deelnemer op de variabelen, bepalen de positie van het stipje.
Om te bepalen of er een positief of negatief verband is, kan je een elips tekenen met een lijn
erin.
Bij een positieve lijn gaat de lijn van linksonder naar rechtsboven. Bij een negatieve verband
gaat de lijn van linksboven naar rechtsonder.
Om iets te zeggen over de populatie is een scatterplot heel lastig, we hebben hiervoor de
steekproevenverdeling nodig. Dit kunnen we maken met getallen maar niet met plaatjes.
Een scatterplot samenvatten in een getal heet correlatie coëfficiënt.