INHOUDSOPGAVE
Literatuur ..................................................................................................................................... 2
Introduction to the Practice of Statistics ........................................................................................ 2
Hoofdstuk 1 ....................................................................................................................................... 2
Hoofdstuk 2 ....................................................................................................................................... 5
Hoofdstuk 3 ....................................................................................................................................... 8
Hoofdstuk 4 ..................................................................................................................................... 10
Hoofdstuk 5 ..................................................................................................................................... 12
Hoofdstuk 6 ..................................................................................................................................... 13
Hoofdstuk 7 ..................................................................................................................................... 16
Research Methods .....................................................................................................................17
Hoofdstuk 1 ..................................................................................................................................... 17
HOOFDSTUK 4 ................................................................................................................................. 20
Hoofdstuk 5 ..................................................................................................................................... 22
Hoofdstuk 8 ..................................................................................................................................... 24
,LITERATUUR
INTRODUCTION TO THE PRACTICE OF STATISTICS
HOOFDSTUK 1
Data: numerieke of kwalitatieve beschrijvingen van objecten die we willen bestuderen.
Cases: objecten die beschreven worden in de dataset.
Variabele: eigenschappen van een case, die onderzocht worden in de data. Verschillende soorten
variabele:
1. Categorische variabelen: plaatst een case in een of meerdere groepen of categorieën
2. Kwantitatieve variabelen: numerieke waarden die rekenkundige bewerkingen mogelijk maken.
Hierbij is unit of measurement belangrijk om duidelijk te maken.
Waarde: verschillende cases kunnen verschillende waarden hebben van een variabele.
Label: speciale variabele die gebruikt wordt om verschillende cases te identificeren (VB: leerling
nummer).
Observatie: wordt gebruikt om de data van een specifieke case te beschrijven.
Verdeling; beschrijft hoe de warden van een variabele variëren tussen cases. Je kan twee soorten
beschrijvingen hebben voor verdelingen:
1. Grafisch
2. Numeriek
Verdeling van een categorische variabele geeft een hoeveelheid (8), percentage (80%) of proportie (0,80)
van de cases die in de categorie vallen.
De grafische beschrijving van een categorische verdeling:
1. Staafdiagram
2. Taartdiagram
Verdeling van een kwantiatieve variabele kan je grafisch zo beschrijven:
1. Stemplot: laat waarden van observaties zien
1. Verdeel elke observatie in een stem en een leaf. VB: 35, stem wordt 3 en leaf wordt 5.
365, stem wordt 36 en leaf wordt 5.
2. Zet de stems in een verticale kolom met de kleinste boven aan en teken een verticale lijn
rechts van deze kolom.
3. Zet de leafs in de rij rechts in optellende volgorde.
Een back-to-back stemplot bestaat uit 2 kanten leafs. Zo kan je data van 2 verschillende dingen
vergelijken.
Splitting stems: elke stem 2 keer opschrijven en dan bij een de leafs van 0-4 doen en bij de andere
stem de leafs van 5-9.
Wanneer er grote getallen bij zitten kan je besluiten om nummers weg te laten of geheel door
trimming.
, 2. Histogram: verdeelt de waarden in groepen en laat die observaties zien.
1. Verdeel het bereik van de data in groepen.
2. Tel de nummers die bij elke groep horen. Dit is de frequentie van elke groep.
3. Teken het histogram. Maak staven die de hoogte aangeven van de frequentie.
Exploratieve data-analyse: het onderzoeken van data om de belangrijkste kenmerken te beschrijven.
Voorspellende analyses: analyse van data die wordt gebruikt om iets in de toekomst te voorspellen.
Analyseren van een verdeling:
- Bekijk het patroon en afwijkingen
- Bekijk de vorm, spreiding en middelpunt
- Bekijk of er uitliggers zijn, die buiten het normale patroon vallen.
De extreme waarden van een verdeling liggen in de staat van de verdeling.
Hoogtepunten in een verdeling: mode/modulus (meest voorkomend)
- 1 piek: unimodal
- 2 pieken: bimodal
- 3 pieken: trimodal
Een verdeling kan symmetrisch zijn of skewed (liggend) naar een kant. Skewed to the right heeft een
rechtse staart en skewed to the left heeft een linkse staart.
Time plot: laat elke observatie tegenover de tijd zien wanneer het gemeten is. Tijd is dan de horizontale as
en de meting de verticale as.
Mean = gemiddelde → alle waarden opgeteld gedeeld door het aantal waarden.
Het gemiddelde is niet een resistente/robuste maat omdat het niet de beinvloeding van extreme waarden
kan weerstaan.
Median = mediaan, middelste getal.
- Oneven: (n+1)/2
- Even: gemiddelde van de 2 getallen in het midden.
Bij een symmetrische verdeling zijn de mean en median hetzelfde. Bij een skewed verdeling is de mean
verder dan de median.
Quartile/kwartiel: een kwartiel van de data, dus het midden van de helft.
Alleen het midden van de verdeling berekenen kan zorgen voor dezelfde uitkomst bij andere grafieken.
Daarom moet je ook naar de spreiding/variabiliteit kijken. Dit doe je via de five-number summary:
- Verdeel de observaties in een toenemende volgorde en bepaal de mediaan M.
- Bepaal de mediaan van de helft links van de mediaan → 1e kwartiel Q1
- Bepaal de mediaan van de helft rechts van de mediaan → 3e kwartiel Q3
- Bepaal het minimum en het maximum
De summary geeft je uiteindelijk neer als: minimum Q1 M Q3 maximum.
De summary leidt tot een passende boxplot.
, - Een centrale box van Q1 tot Q3
- Een lijn in de box die M markeert
- Lijnen uit de box die het minimum en maximum aangeven. Deze lijnen worden
whiskers/snorharen genoemd.
The interquartile range IQR: de afstand tussen het eerste en derde kwartiel. IQR = Q3 – Q1
Een observatie is een uitligger wanneer deze buiten 1.5 x IQR van Q1 of Q3 valt. Dit is de 1.5 x IQR regel.
Een andere manier om de spreiding te beschrijven is met de standaarddeviatie. Dit geeft aan hoe ver een
observatie van het gemiddelde zit.
- S meet spreiding van het gemiddelde en wordt gebruikt als de mean in het midden zit.
- S = 0 is er alleen als er geen spreiding is en alle observaties dus hetzelfde zeggen. S is verder altijd
groter dan 0.
- S is niet een resistente maat. Uitliggers kunnen s veel groter maken.
De variantie s^2 is het gemiddelde van de kwadraten van de afwijkingen van de observaties tot het
gemiddelde. Hier is een formule voor. De standaarddeviatie is de wortel van de variantie s^2 en dus s.
De vijf-nummer samenvatting is meestal beter dan het gemiddelde en de standaarddeviatie voor het
beschrijven van een skewed verdeling of een verdeling met sterke uitliggers. Gebruik mean en s voor
symmetrische verdelingen die geen uitliggers hebben.
Lineaire transformatie: verandert de originele variabele x in een nieuw variabel gegeven door xnieuw = a +
bx. Lineaire transformaties veranderen de vorm van een verdeling niet. Regels voor een lineaire
transformatie:
- Vermenigvuldigen van elke observatie met een positief getal b vermenigvuldigt de maten van het
midden (mean en median) en meet metingen van spreiding (interquartile range en
standaarddeviatie) met b.
- Het optellen van hetzelfde nummer a bij elke observatie telt a op bij de maten van het midden en
de kwartielen, maar niet de maten van spreiding.
Density curve: vloeiende lijn bij een histogram. Geeft een patroon weer, maar niet kleine afwijkingen. De
curve:
- Is altijd op of boven de horizontale as.
- Heeft altijd een gebied onder zich van exact 1.
Een symmetrische density curve heet een normale curve. Als de grafiek scheef is is het een skewed curve.
De mode in de curve is waar de curve het hoogste is. De mediaan is het punt waar de grafiek precies in 2
gesplitst is. De mean is waar het de grafiek in balans is. Bij een symmetrische curve ligt de mean in het
midden. Bij een skewed curve ligt het gemiddelde net iets naast de mediaan, aan de kant van het langste
stuk van de tail.
Bij een symmetrische verdeling (normale verdeling dus) kunnen de mean u en de standaarddeviatie
berekend worden om een ideale data verdeling te beschrijven.
Alle normale verdelingen hebben dezelfde vorm. Het veranderen van u zorgt voor het bewegen van de
curve op de horizontale as. Het veranderen van o zorgt voor een bredere of smallere curve. O is hierbij de
natuurlijke maat voor de spreiding van de normale verdeling.