Inhoud
Hoorcollege 1.1 – Agresti hoofdstuk 1 t/m 4..........................................................................................2
Meetniveau’s van variabelen..............................................................................................................2
Beschrijvende statistiek......................................................................................................................2
Kansverdelingen.................................................................................................................................4
Hoorcollege 1.2 – Agresti hoofdstuk 5 t/m 7..........................................................................................7
Schattingstheorie................................................................................................................................7
Betrouwbaarheidsintervallen.............................................................................................................7
Toetsen...............................................................................................................................................8
Hoorcollege 2.1 – Agresti hoofdstuk 9..................................................................................................10
Het enkelvoudige lineaire regressiemodel.......................................................................................10
Schatten van het enkelvoudige regressiemodel...............................................................................10
Beoordelen van het enkelvoudige regressiemodel...........................................................................12
Chi-kwadraat toets voor onafhankelijkheid......................................................................................13
Hoorcollege 2.2 – Agresti hoofdstuk 8 en 10........................................................................................14
Multivariate relaties.........................................................................................................................14
Hoorcollege 3.1 – Agresti hoofdstuk 11................................................................................................17
Het meervoudige regressiemodel....................................................................................................17
Statistisch controleren en partiële verbanden..................................................................................17
Multipele correlatie en verklaarde variantie....................................................................................17
Beoordelen van parameters in het meervoudige regressiemodel....................................................18
Hoorcollege 3.2 – Agresti Hoofdstuk 11...............................................................................................19
Toets voor het meervoudige regressiemodel...................................................................................19
Het meervoudige regressiemodel met interactie.............................................................................20
Vergelijken van modellen.................................................................................................................21
Partiële correlatie en assumpties.....................................................................................................23
Hoorcollege 4.1 – Agresti hoofdstuk 12................................................................................................25
ANOVA variantieanalyse met één factor..........................................................................................25
Hoorcollege 4.2 – Agresti hoofdstuk 12................................................................................................30
ANOVA variantieanalyse met één factor..........................................................................................30
,Hoorcollege 1.1 – Agresti hoofdstuk 1 t/m 4
Meetniveau’s van variabelen
Variabele = een eigenschap die kan variëren tussen personen in een steekproef of populatie.
Variabelen hebben elk een eigen meetniveau.
Meetniveau = het meetniveau van een variabele bepaalt de statistische methoden die gebruikt
kunnen worden.
Meetniveaus (ezelsbruggetje: NOIR)
Nominaal en Nominaal = indeling in ongeordende categorieën. Classificatie als wel/niet
Ordinaal ‘behoren tot de zelfde categorie’. Codering kan met cijfers, letters of symbolen.
samen
Categorisch Ordinaal = indeling in geordende categorieën. Classificatie als ‘groter dan, gelijk,
en kleiner dan’. Rang ordenen kan op twee manieren: hoog naar laag; laag naar
hoog. (Soms ‘fuzzy’, zoals somscore Likert-schalen)
Interval en Interval = Maakt naast ordening ook verschillen interpretabel door gelijke
Ratio samen meeteenheden.
Metrisch of
Kwantitatief Ratio = Heeft naast ordening en gelijke meeteenheden een absoluut nulpunt.
De meeste toetsingsmethodes zijn voor interval en ratio meetniveau, dit zijn parametrische
methodes. Non-parametrische methodes (categorisch) zijn minder bekend en gebruikt.
Parametrische methode = een methode voor een kwantitatieve afhankelijke variabele
(interval/ratio). In de praktijk wordt deze toch vaak gebruikt voor ordinale en discrete data met veel
mogelijke waardes, zoals Likert-schalen.
Beschrijvende statistiek
Beschrijvende statistiek = het samenvatten van data middels tabellen en figuren. Samenvatten per
variabele (verdeling), samenvatten voor meerdere variabelen (samenhang).
Zorg ervoor dat je altijd eerst exploreert (bestudeerd/onderzoekt) voordat je werkelijk gaat
analyseren!
Categorische data Frequentietabel Staafdiagram
Kwantitatieve data Frequentietabel Histogram
Boomdiagram (stem-and-leafplot)
,Verdelingsvorm en datacentrum
Klokvormig, normaalverdeling
Gemiddelde = mediaan want symmetrisch
U-vormig
Gemiddelde = mediaan want symmetrisch
Scheef naar rechts
Gemiddelde = rechts van de mediaan
Scheef naar links
Gemiddelde = links van de mediaan
Bimodale verdeling (twee toppen
Let op: get gemiddelde zegt niet alles, soms is de mediaan of modus een betere maat om het midden
aan te duiden.
Beschrijving van data variabiliteit
Range = verschil tussen max en min
Deviatie (afwijking) = ( y i− y )
2
Kwadratensommen = ∑ ( y i− y )
∑ ( y i− y )
Variantie = s2=
n−1
Standaard deviatie = s=
√ ∑ ( y i− y )
n−1
De empirische regel
Als de data normaal verdeeld is, dan ligt
68% van de waarnemingen tussen het
, gemiddelde min en plus één standaard deviatie en 95% van de waarnemingen tussen het gemiddelde
min en plus twee standaard deviaties
Classificeren (measure of position)
Kwartielen = hakken data in vier gelijke delen
Interkwartiel afstand (IQR) = verschil tussen eerste (Q1) en derde (Q3) kwartiel
Outlier = als een score 1,5 * IQR boven/onder de Q1 of Q3 staat
Voorbeeld boxplot: In elk vlak zit 25%
van de data min de outliers. Dus 50%
links van de mediaan en 50% rechts
van de mediaan, 25% links van Q1 en
25% tussen Q1 en de mediaan, etc.
Kansverdelingen
Kans = de kans dat een observatie een bepaalde waarde aanneemt
Random variabele = elke mogelijke waarde van variabele heeft een bepaalde kans
Kansverdeling = alle mogelijke waardes van variabele en hun kansen
Discrete kansverdeling = elke mogelijke waarde heeft een kans. Figuur: histogram, met op de y-as de
kansen
Voorbeeld: Twee variabelen inzet en prestatie
Inzet = weinig, middelmatig en veel
Prestatie = onvoldoende, voldoende, goed
Continue kansverdeling = oneindig aantal mogelijke waardes, kans voor gekozen intervallen van
waardes. Figuur met kans als oppervlakte onder de curve.
Voorbeeld: reactietijd in miliseconden
Verschillende kansverdelingen in de statistiek
- Verdeling van variabelen in de populatie
- Verdeling van variabelen in de steekproef
- Verdeling van steekproefgrootheden