Statistiek 2
Tentamen: 60%
- 30 vragen, 20 goed voor voldoende.
- 1/3 rekenen, 1/3 kennis, 1/3 inzicht.
- Vragen Canvas Quiz komen terug in tentamen (2 of 3).
Eindopdracht: 40%
- Allebei moeten voldoende.
College 1
Design: Verzamelen van data over subjecten. Meestal in een steekproef.
Beschrijvende statistiek: Samenvatten van de informatie in de data.
Toetsende statistiek: Voorspellingen over de populatie parameters. Met behulp van de steekproef
statistieken.
De kwaliteit van interferenties is afhankelijk van de mate waarin de steekproef de populatie weerspiegelt.
Beïnvloed door:
- Steekproeffout (sampling error): Toevallige steekproefverschillen.
- Steekproefvertekening (sampling bias): Selectieve werving.
- Selectieve respons (non-respons bias): Selectieve deelname.
- Meetfout (respons bias): incorrect antwoord.
Statistische methoden analyseren data over variabelen:
- Kenmerken die variëren tussen subjecten.
- Verschillen in meetniveaus.
o Statistische methoden zijn afhankelijk van meetniveau.
Categorisch – Discreet:
- Nominaal: Ongeordende categorieën.
- Ordinaal: Geordende Categorieën. (Schoolniveau).
Kwantitatief – Discreet of continu:
- Interval: Ordening met gelijke afstanden tussen opeenvolgende waarden. (Temperatuur).
- Ratio: Ordening met gelijke afstanden en absoluut nulpunt. (Scores op een tentamen).
Kwantitatieve variabele wordt meestal behandeld als continu, dus dan zijn alle waarden mogelijk.
Beschrijvende statistiek:
- Het samenvatten van de data door middel van tabellen en figuren.
o Samenvatten per variabele: verdeling.
o Samenvatten van meerdere variabelen: samenhang.
- Type beschrijvende statistiek is afhankelijk van meetniveau.
Categorische data: We kijken naar de frequentie en proporties/percentages.
Frequenties en histogrammen: Hoe vaak komt een score binnen een bepaald interval voor?
,Van belang:
Vorm: Verdeling van de waarden.
Centrum: Typische waarden.
Spreiding: Variatie van waarden.
Positie: Locatie in de verdeling.
Vorm
- Centrum: Gemiddelde, mediaan en modus worden het meest gebruikt.
o Alleen het centrum is niet voldoende informatief.
- Spreiding:
De meeste statistische analyses
houden zich bezig met het verklaren
van variantie in de data.
- Positie:
o Kwartielen: Hakken de data in 4 gelijke delen.
o Interkwartiel afstand (IQR): Verschil tussen eerste en derde kwartiel.
o Outlier: Als score 1.5*IQR boven /Onder 3e/ 1e kwartiel.
o Z-score: Afwijking van het gemiddelde in standaard deviaties.
o
Kansverdelingen:
Kans op een uitkomst:
- Kans: De kans dat een observatie een bepaalde waarde aanneemt.
- Random variabele: Elke mogelijke waarde van variabele heeft een bepaalde kans.
- Kansverdeling: Alle mogelijke waardes van variabele en hun kansen.
- Totale kans onder de verdeling is 1 (100%).
Discrete Kansverdelingen:
- Vaak weergegeven in histogram, met op de y -as de kansen
- Elke mogelijke waarde heeft een kans
- Bijv. kans (willekeurig gekozen) antwoord B = 0.68 (of 68%)
Continu kansverdelingen:
- Werken met intervallen:
, o Kans op een score minimaal …
o Kans op een score tussen … en … is
o Kans op een score lager dan…
Belangrijke verdelingen in de statistiek:
- Populatie verdeling: Een kans/ of frequentieverdeling van verschillende uitkomstmogelijkheden
van een variabele, zoals deze in de populatie wordt waargenomen.
- Steekproef verdeling: Een kans/ of frequentieverdeling van de verschillende
uitkomstmogelijkheden van een variabele, zoals deze in een specifieke steekproef wordt
waargenomen.
- Steekproevenverdeling: De kansverdeling voor de
verschillende waarden van een steekproefgrootheid,
die ontstaat wanneer een (groot) aantal willekeurige
steekproeven van een bepaalde omvangwillekeurig
wordt getrokken uit de populatie.
College 2
Menti:
- Betrouwbaarheidsintervallen zijn informatiever dan significantietoetsen.
- Voor het toetsen van een gemiddelde wordt meestal de t-toets gebruikt.
Schattingstheorie:
- Puntschatter: de beste gok die je kunt doen.
- Intervalschatting: Een interval om de puntschatting waarvan je verwacht dat de parameter binnen
valt.
Kwaliteit van puntschattingen:
- Een schatter is een steekproeffunctie op basis
waarvan een populatieparameter wordt geschat.
- De kwaliteit van een schatter wordt uitgedrukt in:
o Zuiverheid (unbiased).
o Doeltreffendheid (efficiënt).
Punt- en intervalschatting:
- Voor een goede gevolgtrekking is puntschatting niet voldoende.
- We willen ook weten hoe dicht bij een schatting waarschijnlijk bij de parameter ligt.
- Daarom gebruiken we:
o Puntschatting +- foutenmarge.
o Dat levert een betrouwbaarheidsinterval op.
Betrouwbaarheidsinterval versus betrouwbaarheid:
- Het betrouwbaarheidsinterval voor een parameter is een interval van getallen waarvan men gelooft
dat parameter daarin ligt.
- Het betrouwbaarheidsniveau is de kans dat de methode resulteert in een interval dat de parameter
bevat. Meestal is deze 95 of 99%.
, Hoe komen we aan het betrouwbaarheidsinterval?
- Basis voor BI is steekproevenverdeling van puntschatting.
- Vaak is steekproevenverdeling normaal verdeeld.
- We kennen de waarschijnlijkheid van de schatting gegeven de parameter.
- Ongeveer 95% van de verdeling ligt binnen twee standaardfouten van de parameter (empirische
regel).
- De breedte van het bI:
o Neemt toe als de betrouwbaarheid stijgt.
o Neemt af als de steekproef groter wordt.
Het betrouwbaarheidsinterval:
- Met een betrouwbaarheidsniveau van 0,95, is er een kans van 5% dat het interval rondom de
puntschatter, de parameter niet bevat.
- Voor 1 steekproef is onbekend of populatiewaarde in het interval ligt.
- Het betrouwbaarheidsniveau is dus lange termijn proportie correct!
- De betrouwbaarheid 1 – α is gelijk aan de relatieve frequentie waarmee over steekproeven heen,
de berekende intervallen de werkelijke waarde van μ bevatten.
Onbekende σ:
- Bij normaal verdeelde data en bekende σ zou gelden:
o y ±z ×σ ȳ = ̄y ±z ×σ/√n,
o met bijvoorbeeld z= 1.96 voor 95% BI.
- Echter meestal kennen we σ niet!
- We kunnen hem schatten met s.
- We moeten een prijs betalen voor het moeten schatten.
Bij onbekende σ gebruiken we de t-verdeling:
- Moeten we σ uit de data schatten met s op basis van onzekere ..
- Niet langer normaalverdeling gebruiken voor toetsing!
- Maar t-verdeling die wel lijkt op normaalverdeling,
- Maar met dikkere staarten.
- Gelijkenis hangt af van n en aantal vrijheidsgraden.
Wat zijn vrijheidsgraden?
- Als we parameters schatten (zoals σ), hangen df af van restricties op de observaties.
- Hoe meer restricties, hoe minder vrijheidsgraden.
- Voor elke restrictie, verdwijnt 1 df.
- Restricties betekenen: Het aantal parameters die geschat moeten worden.
Doorgaans zijn de vrijheidsgraden gelijk aan de steekproefomvang minus het aantal parameters dat je bij
een analyse moet berekenen.
- Wanneer gebruiken we vrijheidsgraden?
o Als we een gemiddelde testen met de t -verdeling.
o Bij toetsen in regressie- en variantieanalyse.
Voorbeeld 1:
- We willen de t-toets voor een gemiddelde gebruiken. (one-sample t-test).
- Een df wordt besteed aan het schatten van het gemiddelde, dus we hebben 1 restrictie.
- Voor deze test krijgen we dan df = n -1.
Tentamen: 60%
- 30 vragen, 20 goed voor voldoende.
- 1/3 rekenen, 1/3 kennis, 1/3 inzicht.
- Vragen Canvas Quiz komen terug in tentamen (2 of 3).
Eindopdracht: 40%
- Allebei moeten voldoende.
College 1
Design: Verzamelen van data over subjecten. Meestal in een steekproef.
Beschrijvende statistiek: Samenvatten van de informatie in de data.
Toetsende statistiek: Voorspellingen over de populatie parameters. Met behulp van de steekproef
statistieken.
De kwaliteit van interferenties is afhankelijk van de mate waarin de steekproef de populatie weerspiegelt.
Beïnvloed door:
- Steekproeffout (sampling error): Toevallige steekproefverschillen.
- Steekproefvertekening (sampling bias): Selectieve werving.
- Selectieve respons (non-respons bias): Selectieve deelname.
- Meetfout (respons bias): incorrect antwoord.
Statistische methoden analyseren data over variabelen:
- Kenmerken die variëren tussen subjecten.
- Verschillen in meetniveaus.
o Statistische methoden zijn afhankelijk van meetniveau.
Categorisch – Discreet:
- Nominaal: Ongeordende categorieën.
- Ordinaal: Geordende Categorieën. (Schoolniveau).
Kwantitatief – Discreet of continu:
- Interval: Ordening met gelijke afstanden tussen opeenvolgende waarden. (Temperatuur).
- Ratio: Ordening met gelijke afstanden en absoluut nulpunt. (Scores op een tentamen).
Kwantitatieve variabele wordt meestal behandeld als continu, dus dan zijn alle waarden mogelijk.
Beschrijvende statistiek:
- Het samenvatten van de data door middel van tabellen en figuren.
o Samenvatten per variabele: verdeling.
o Samenvatten van meerdere variabelen: samenhang.
- Type beschrijvende statistiek is afhankelijk van meetniveau.
Categorische data: We kijken naar de frequentie en proporties/percentages.
Frequenties en histogrammen: Hoe vaak komt een score binnen een bepaald interval voor?
,Van belang:
Vorm: Verdeling van de waarden.
Centrum: Typische waarden.
Spreiding: Variatie van waarden.
Positie: Locatie in de verdeling.
Vorm
- Centrum: Gemiddelde, mediaan en modus worden het meest gebruikt.
o Alleen het centrum is niet voldoende informatief.
- Spreiding:
De meeste statistische analyses
houden zich bezig met het verklaren
van variantie in de data.
- Positie:
o Kwartielen: Hakken de data in 4 gelijke delen.
o Interkwartiel afstand (IQR): Verschil tussen eerste en derde kwartiel.
o Outlier: Als score 1.5*IQR boven /Onder 3e/ 1e kwartiel.
o Z-score: Afwijking van het gemiddelde in standaard deviaties.
o
Kansverdelingen:
Kans op een uitkomst:
- Kans: De kans dat een observatie een bepaalde waarde aanneemt.
- Random variabele: Elke mogelijke waarde van variabele heeft een bepaalde kans.
- Kansverdeling: Alle mogelijke waardes van variabele en hun kansen.
- Totale kans onder de verdeling is 1 (100%).
Discrete Kansverdelingen:
- Vaak weergegeven in histogram, met op de y -as de kansen
- Elke mogelijke waarde heeft een kans
- Bijv. kans (willekeurig gekozen) antwoord B = 0.68 (of 68%)
Continu kansverdelingen:
- Werken met intervallen:
, o Kans op een score minimaal …
o Kans op een score tussen … en … is
o Kans op een score lager dan…
Belangrijke verdelingen in de statistiek:
- Populatie verdeling: Een kans/ of frequentieverdeling van verschillende uitkomstmogelijkheden
van een variabele, zoals deze in de populatie wordt waargenomen.
- Steekproef verdeling: Een kans/ of frequentieverdeling van de verschillende
uitkomstmogelijkheden van een variabele, zoals deze in een specifieke steekproef wordt
waargenomen.
- Steekproevenverdeling: De kansverdeling voor de
verschillende waarden van een steekproefgrootheid,
die ontstaat wanneer een (groot) aantal willekeurige
steekproeven van een bepaalde omvangwillekeurig
wordt getrokken uit de populatie.
College 2
Menti:
- Betrouwbaarheidsintervallen zijn informatiever dan significantietoetsen.
- Voor het toetsen van een gemiddelde wordt meestal de t-toets gebruikt.
Schattingstheorie:
- Puntschatter: de beste gok die je kunt doen.
- Intervalschatting: Een interval om de puntschatting waarvan je verwacht dat de parameter binnen
valt.
Kwaliteit van puntschattingen:
- Een schatter is een steekproeffunctie op basis
waarvan een populatieparameter wordt geschat.
- De kwaliteit van een schatter wordt uitgedrukt in:
o Zuiverheid (unbiased).
o Doeltreffendheid (efficiënt).
Punt- en intervalschatting:
- Voor een goede gevolgtrekking is puntschatting niet voldoende.
- We willen ook weten hoe dicht bij een schatting waarschijnlijk bij de parameter ligt.
- Daarom gebruiken we:
o Puntschatting +- foutenmarge.
o Dat levert een betrouwbaarheidsinterval op.
Betrouwbaarheidsinterval versus betrouwbaarheid:
- Het betrouwbaarheidsinterval voor een parameter is een interval van getallen waarvan men gelooft
dat parameter daarin ligt.
- Het betrouwbaarheidsniveau is de kans dat de methode resulteert in een interval dat de parameter
bevat. Meestal is deze 95 of 99%.
, Hoe komen we aan het betrouwbaarheidsinterval?
- Basis voor BI is steekproevenverdeling van puntschatting.
- Vaak is steekproevenverdeling normaal verdeeld.
- We kennen de waarschijnlijkheid van de schatting gegeven de parameter.
- Ongeveer 95% van de verdeling ligt binnen twee standaardfouten van de parameter (empirische
regel).
- De breedte van het bI:
o Neemt toe als de betrouwbaarheid stijgt.
o Neemt af als de steekproef groter wordt.
Het betrouwbaarheidsinterval:
- Met een betrouwbaarheidsniveau van 0,95, is er een kans van 5% dat het interval rondom de
puntschatter, de parameter niet bevat.
- Voor 1 steekproef is onbekend of populatiewaarde in het interval ligt.
- Het betrouwbaarheidsniveau is dus lange termijn proportie correct!
- De betrouwbaarheid 1 – α is gelijk aan de relatieve frequentie waarmee over steekproeven heen,
de berekende intervallen de werkelijke waarde van μ bevatten.
Onbekende σ:
- Bij normaal verdeelde data en bekende σ zou gelden:
o y ±z ×σ ȳ = ̄y ±z ×σ/√n,
o met bijvoorbeeld z= 1.96 voor 95% BI.
- Echter meestal kennen we σ niet!
- We kunnen hem schatten met s.
- We moeten een prijs betalen voor het moeten schatten.
Bij onbekende σ gebruiken we de t-verdeling:
- Moeten we σ uit de data schatten met s op basis van onzekere ..
- Niet langer normaalverdeling gebruiken voor toetsing!
- Maar t-verdeling die wel lijkt op normaalverdeling,
- Maar met dikkere staarten.
- Gelijkenis hangt af van n en aantal vrijheidsgraden.
Wat zijn vrijheidsgraden?
- Als we parameters schatten (zoals σ), hangen df af van restricties op de observaties.
- Hoe meer restricties, hoe minder vrijheidsgraden.
- Voor elke restrictie, verdwijnt 1 df.
- Restricties betekenen: Het aantal parameters die geschat moeten worden.
Doorgaans zijn de vrijheidsgraden gelijk aan de steekproefomvang minus het aantal parameters dat je bij
een analyse moet berekenen.
- Wanneer gebruiken we vrijheidsgraden?
o Als we een gemiddelde testen met de t -verdeling.
o Bij toetsen in regressie- en variantieanalyse.
Voorbeeld 1:
- We willen de t-toets voor een gemiddelde gebruiken. (one-sample t-test).
- Een df wordt besteed aan het schatten van het gemiddelde, dus we hebben 1 restrictie.
- Voor deze test krijgen we dan df = n -1.