Door Esther van Zessen, eerstejaars psychologie aan de RuG
Inhoudsopgave
H1 - Verdelingen
Grafieken, getallen, normale verdelingen en kansdichtheidscurves
H2 - Relaties
Scatterplots, correlatie, kleinste kwadraten regressie, voorzichtig met correlatie en regressie,
tweewegstabellen, causatie
H3 - Data produceren
Design van experimenten, steekproef design, statistische gevolgtrekking
H4 - Kansen, de studie van willekeur
Willekeur, kansmodellen, stochasten, gemiddelden en varianties van stochasten, algemene
kansregels
H5 - Steekproefverdelingen
Steekproefverdeling van een steekproefgemiddelde, steekproefverdeling van aantallen en
proporties
Syllabus
Samenhangsmaten, samenhang in rangordening, samenhang in absolute zin,
overeenstemmingsmaten voor kwalitatieve variabelen met gelijk categorieenstelsel
Extra
Afkortingen of termen
Veelvoorkomende begrippen ENG - NL
Belangrijkste formules
,H1 - Verdelingen
Grafieken
Een distributie is een verdeling. Een categorische verdeling kan worden weergegeven in een
staafdiagram of een taartdiagram. Kwantitatieve verdelingen kunnen worden weergegeven in een
(rug-aan-rug) stamdiagram of een histogram.
Een stamdiagram vergelijkt twee gerelateerde distrubuties, en er zijn twee modificaties mogelijk
aan een stamdiagram: splitten en trimmen. Bij splitten neem je elke stam en splits je ze
allemaal. Waar je dus normaal bladeren van 0 tot en met 9 voor een stam hebt, neem je nu twee
stammen, eentje met bladeren van 0 tot en met 4 en eentje met bladeren van 5 tot en met 9.
Trimmen is handig als de geobserveerde waarden uit erg veel getallen bestaan, dan haal je het
laatste cijfer of de paar laatste cijfers weg bij elk getal.
Een histogram is handiger bij grote data sets. Er zit geen ruimte tussen de staven, wat wel zo is bij een
staafdiagram. Soms is het handig een frequentietabel (als er geen individuele observaties zijn) of een
histogram van procenten (met de procenten op de verticale as uitgezet) te gebruiken om meerdere
distrubuties met een verschillende n observaties te vergelijken.
Een histogram is unimodaal als er 1 duidelijke piek te zien is. De term rechts-scheef wordt
gebruikt om een grafiek te beschrijven waarbij de rechterstaart veel groter is (ten opzichte van
de modus) dan de linkerkant.
Een tijdplot is goed te gebruiken als er een systematische verandering over tijd plaatsvindt (zet de tijd
horizontaal uit).
Getallen
Het gemiddelde en de mediaan (de middelste waarde van een geordende set, in het geval van twee
middelste waardes het gemiddelde van die twee) zijn centrummaten. Het gemiddelde is gevoelig voor
extreme waarden zoals outliers of zoals bij scheve vergelijkingen. Om deze reden is het gemiddelde
geen resistente centrummaat. De mediaan is resistenter.
De kwartielen zijn zowel een centrummaat als een spreidingsmaat. Het eerste kwartiel, Q1, is de
mediaan van de eerste helft getallen van de geordende set. Het tweede kwartiel, Q2, is de
mediaan en het derde kwartiel, Q3, is de mediaan van de tweede helft getallen van de geordende
set. In de vijf getallen samenvatting (minimum, Q1, Q2, Q3, maximum) worden deze duidelijk
weergegeven, waarna ze eventueel kunnen worden omgezet tot een boxplot. Dit is een betere
samenvattingsmaat bij scheve distributies of bij een dataset met veel outliers.
Een manier om outliers te identificeren is door de interkwartielafstand (IQR) te berekenen. Elke waarde
die verder onder Q1 of verder boven Q3 ligt dan 1,5 x IQR is een outlier. Q3-Q1 = IQR
, In een gemodificeerde boxplot zijn de outliers individueel geidentificeerd door middel van een
plusje, kruisje of ander herkenbare markering. Bevestigde outliers moet je niet meer meenemen
in het (opnieuw) berekenen van de kwartielen!
De standaarddeviatie is niet resistent en geeft weer hoe ver de observaties van het gemiddelde af
liggen. De standaarddeviatie wordt weergegeven door een kleine letter s. De formule: s = √(s2)
s2 is de variantie. De formule: s2 = 1/(n-1) Σ ((xi - xgem )2 ) De standaarddeviatie en de variantie zijn
klein als de observaties dichtbij het gemiddelde liggen.
Een lineaire transformatie (xnieuw = a + bx) verandert de vorm niet, maar de spreiding en het
centrum wel. Een vermenigvuldiging met +b vermenigvuldigt ook de spreiding en het centrum
met b, een optelling van +-a veroorzaakt een optelling van +a bij de centrummaten (IQR en
standaarddeviatie) maar geen verandering in de spreiding (gemiddelde en mediaan).
Normale verdelingen en kansdichtheidscurves
Een dichtheidscurve ligt op of boven de horizontale as en heeft een oppervlakte van 1. Een
symmetrische kansdichtheidscurve heet een normale verdeling. De modus is daarbij de piek. Het
gemiddelde is het zwaartepunt van de grafiek (waar balanceert de grafiek?) en de mediaan is het punt
waarbij 50% van het oppervlakte links ligt en 50% rechts. Het buigpunt van de grafiek is op afstand σ
(standaarddeviatie) van μ (gemiddelde). Een normale verdeling is een goede beschrijving van echte
data en een goede benadering voor veel kansen. Bovendien werken procedures gebaseerd op een
normale verdeling vaak ook erg goed voor andere, ongeveer symmetrische, verdelingen.
68% binnen σ van μ, 95% binnen 2σ van μ, 99,7% binnen 3σ van μ.
N(μ,σ) in units van σ en μ omschrijven heet standaardiseren. Dit is mogelijk met gebruik van de
formule z = (x-μ)/σ, welke een z-score geeft. Die z-score geeft weer hoeveel sigma (σ) van mu (μ) af
ligt alsmede de richting. Een standaard normale verdeling volgt N(0,1) (uit Z = (X-μ)/σ).
De cumulatieve proportie is het proportie observaties onder een waarde, waarbij z de
rechtergrens opmaakt. Als je de top 10% wilt berekenen, ligt er dus 0.90 onder x. De
dichtsbijzinde p daarvoor in tabel A is 0,8997, z is daarbij 1,28. (x-μ)/σ = 1,28, waaruit x
dan volgt. Alles ≥ x is dan de top 10%.
H2 - Relaties
Scatterplots
Bij geassocieerde variabelen vertelt het weten van de waarde van de ene variabele je iets over de
waarde van de tweede variabele (de grootte van een koffie bij Starbucks vertelt je iets over de prijs
ervan).