Statistiek 1
Week 36 – college 1 + 2 Hoofdstuk 1 en syllabus hoofdstuk 1 en 2
Onderzoekscyclus:
1. Vraagstelling: formuleer onderzoeksvraag in termen van variabelen (eigenschap waarop
personen verschillen)
2. Operationalisatie: hoe meet je de variabelen in je vraagstelling?
>Data: proefpersonen (alle personen die aan het onderzoek meedoen en variabelen (alle
vragen waarop proefpersonen een score krijgen)
>Meetniveau van een variabele: geeft aan welke informatie in scores op variabele je serieus
neemt, ligt niet vast de gebruiker kiest het meetniveau
*Categorisch: nominaal (labels) en ordinaal (ordening/volgorde)
*Kwantitatief – stappen inhoudelijk even groot: interval (je mag vermenigvuldigen) en ratio
(absoluut nulpunt)
3. Onderzoeksopzet
4. Data verzamelen
>Inspecteer scores per variabele
I. Grafisch/frequentietabel: afbeelding geeft direct een duidelijk beeld
II. Samenvattingsmaten
>Let hierbij op
I. Verdeling: vorm - unimodaal = één piek, modes
Uitbijters (outliers): afwijkende (groep) personen, duidelijk buiten andere scores
Apart rapporteren of fout verbeteren (bij scoringsfout)
II. Centrum (midden)
>Mediaan (=resistent): middelste scores van geordende scores, meer resistent
>Gemiddelde: som van scores gedeeld door aantal, gevoelig voor extreme observaties
>Symmetrisch: gemiddeld = mediaan
>Scheef: gemiddelde ≠ mediaan
>Richting van de staart geeft ligging aan, bijvoorbeeld rechtsscheef verdeeld (gem.
rechts van mediaan)
III. Spreiding: waar liggen scores
5. Data screenen: maak plaatjes
>Staafdiagram, taartdiagram, stamdiagram, rug-aan-rug stamdiagram voor kleine dataset,
histogram voor grote dataset (geeft waarden per klassen, duidelijk & overzichtelijk),
tijddiagram (observaties ordenen op tijd)
*Beschrijven van de grafiek: algemene patroon, vorm, centrum (midden) en spreiding (min.
max.)
*Symmetrisch = links en rechts van piek kleiner
6. Data reductie/resultaten: samenvattingsmaten voor centrum en complete verdeling
7. Onzekerheidsmarges: betrouwbaarheidsinterval
8. Data conclusies
9. Onderzoeksconclusies
Spreidingsmaten
1. Minimum en maximum, verschillen tussen min./max.
2. Kwartielen (Q1 en Q3): afstand tussen de eerste en de laatste. Is resistent.
Kwart van de scores = middelste 50% van scores
1. <Q1 3. Tussen mediaan en Q3
2. Tussen Q1 en mediaan 4. >Q3
Q1 = mediaan van eerste helft van de scores
Q3 = mediaan van tweede helft van de scores
> Interkwartielrange (IQR) – bij symmetrische verdeling = Q3 – Q1 (afstand tussen kwartielen)
Five number summary bij scheve verdeling
1. Minimum 2. Q1 3. Mediaan 4. Q3 5. Maximum
, >Boxplot: verticaal, box met grenzen Q1 en Q3 met middellijn mediaan, maximum en
minimum aangegeven. Maximum geeft niet werkelijke maximum aan, extreme scores
worden apart aangegeven.
*Interquartile rang IQR: Q3 – Q1
*Modified boxplot: uitbijters apart weergegeven = als score 1,5x IQR van Q1 en Q3 af ligt.
Hoogste score die niet bij uitbijter valt = maximum. Ze geven overzicht in één oogopslag.
3. Gemiddelde absolute afwijking – bij symmetrische verdeling: Abs (X₁ - X) [som = altijd 0]
- weghalen en delen door n (1/n)Σ|X₁ – X|²
Absoluut: + = + en – wordt + n = aantal proefpersonen
4. Variantie en standaarddeviatie (afwijkingen van gemiddelde scores)
+: als kwadranten B en C > kwadranten A en D
>Variantie s 2
1
x x 2
Waarde geeft alleen + of – aan, geen sterkte.
n 1
i
x x
1 2
s
n 1
i
>Standaarddeviatie (wortel) delen door n -1
Alleen gebruiken als gemiddelde als centrum van de metingen is genomen
0: alleen wanneer er geen spreiding is, dezelfde waarden. Hoe groter s, hoe groter spreiding
Niet resistent, een paar uitbijters maakt standaard deviatie erg groot
>Stappen: Gemiddelde score – gemiddelde (score-gemiddelde)²√ (score-gemiddelde)²
Standaardproeffluctuaties
*Steekproef gemiddelde ≠ populatie gemiddeld
*Betrouwbaarheidsinterval (BHI): geeft onzekerheidsmarge rondom schattingen. We weten met …%
zekerheid dat het gemiddelde van alle scores ligt tussen …en…
*Steekproef geeft geen precieze waarde aan van populatie, het is een inschatting. Hoe meer
steekproeven je neemt, hoe dichter je bij de populatiewaarde komt
Week 37 – college 1 Hoofdstuk 1.3
Data analyse – strategie
Per variabele: geeft data grafische weer
Let op: verdeling scores, centrum en spreiding scores. Algemeen patroon en uitbijters
Bereken zinvolle samenvattingsmaten voor centrum en spreiding
Bereken BHI’s rond samenvattingsmaten (data uit steekproef i.p.v. populatie)
Histogram
- Voordeel: weergave van geobserveerde scores i.p.v. een benadering
- Nadelen: meestal minder efficiënte samenvatting (veel staven, weinig overzicht) dan curve
en vorm verandert als je andere klassenindeling kiest
Curve in grafiek: beschrijft functie (y) als functie van x
1. Dichtheidscurve: geeft aan hoeveel van de scores in een willekeurig te kiezen interval vallen
(en niet frequentie per klasse van scores) Je spreekt in een gebied, welk deel van de scores
>Altijd boven de x-as
>Totale oppervlakte onder curve = 1 (100%). Oppervlakte boven bepaald interval van
waarden geeft welk deel van de scores in dit interval viel (boven de x-as)
>Geeft GEEN frequenties. Y-waarde zelf interpreteerbaar, alleen naar oppervlaktes onder
curve kijken
2. Normale curve = normale verdeling: symmetrisch
>Gladgestreken beeld van de verdeling van de scores >Maten voor: centrum en spreiding
1. Modus = vaakst voorkomende score, score waar grafiek het hoogst is (x-as)
2. Mediaan = score waarvan links en rechts 50% oppervlakte onder curve
3. Gemiddelde () = punt waarop grafiek in ‘balans’ is
4. Standaarddeviatie/-afwijking () = bij normale verdeling afstand tussen midden en
buigpunt
5. Unimodale verdeling: symmetrische verdeling mediaan = gemiddelde = modus
6. Standaardvariantie = standaarddeviatie²
Week 36 – college 1 + 2 Hoofdstuk 1 en syllabus hoofdstuk 1 en 2
Onderzoekscyclus:
1. Vraagstelling: formuleer onderzoeksvraag in termen van variabelen (eigenschap waarop
personen verschillen)
2. Operationalisatie: hoe meet je de variabelen in je vraagstelling?
>Data: proefpersonen (alle personen die aan het onderzoek meedoen en variabelen (alle
vragen waarop proefpersonen een score krijgen)
>Meetniveau van een variabele: geeft aan welke informatie in scores op variabele je serieus
neemt, ligt niet vast de gebruiker kiest het meetniveau
*Categorisch: nominaal (labels) en ordinaal (ordening/volgorde)
*Kwantitatief – stappen inhoudelijk even groot: interval (je mag vermenigvuldigen) en ratio
(absoluut nulpunt)
3. Onderzoeksopzet
4. Data verzamelen
>Inspecteer scores per variabele
I. Grafisch/frequentietabel: afbeelding geeft direct een duidelijk beeld
II. Samenvattingsmaten
>Let hierbij op
I. Verdeling: vorm - unimodaal = één piek, modes
Uitbijters (outliers): afwijkende (groep) personen, duidelijk buiten andere scores
Apart rapporteren of fout verbeteren (bij scoringsfout)
II. Centrum (midden)
>Mediaan (=resistent): middelste scores van geordende scores, meer resistent
>Gemiddelde: som van scores gedeeld door aantal, gevoelig voor extreme observaties
>Symmetrisch: gemiddeld = mediaan
>Scheef: gemiddelde ≠ mediaan
>Richting van de staart geeft ligging aan, bijvoorbeeld rechtsscheef verdeeld (gem.
rechts van mediaan)
III. Spreiding: waar liggen scores
5. Data screenen: maak plaatjes
>Staafdiagram, taartdiagram, stamdiagram, rug-aan-rug stamdiagram voor kleine dataset,
histogram voor grote dataset (geeft waarden per klassen, duidelijk & overzichtelijk),
tijddiagram (observaties ordenen op tijd)
*Beschrijven van de grafiek: algemene patroon, vorm, centrum (midden) en spreiding (min.
max.)
*Symmetrisch = links en rechts van piek kleiner
6. Data reductie/resultaten: samenvattingsmaten voor centrum en complete verdeling
7. Onzekerheidsmarges: betrouwbaarheidsinterval
8. Data conclusies
9. Onderzoeksconclusies
Spreidingsmaten
1. Minimum en maximum, verschillen tussen min./max.
2. Kwartielen (Q1 en Q3): afstand tussen de eerste en de laatste. Is resistent.
Kwart van de scores = middelste 50% van scores
1. <Q1 3. Tussen mediaan en Q3
2. Tussen Q1 en mediaan 4. >Q3
Q1 = mediaan van eerste helft van de scores
Q3 = mediaan van tweede helft van de scores
> Interkwartielrange (IQR) – bij symmetrische verdeling = Q3 – Q1 (afstand tussen kwartielen)
Five number summary bij scheve verdeling
1. Minimum 2. Q1 3. Mediaan 4. Q3 5. Maximum
, >Boxplot: verticaal, box met grenzen Q1 en Q3 met middellijn mediaan, maximum en
minimum aangegeven. Maximum geeft niet werkelijke maximum aan, extreme scores
worden apart aangegeven.
*Interquartile rang IQR: Q3 – Q1
*Modified boxplot: uitbijters apart weergegeven = als score 1,5x IQR van Q1 en Q3 af ligt.
Hoogste score die niet bij uitbijter valt = maximum. Ze geven overzicht in één oogopslag.
3. Gemiddelde absolute afwijking – bij symmetrische verdeling: Abs (X₁ - X) [som = altijd 0]
- weghalen en delen door n (1/n)Σ|X₁ – X|²
Absoluut: + = + en – wordt + n = aantal proefpersonen
4. Variantie en standaarddeviatie (afwijkingen van gemiddelde scores)
+: als kwadranten B en C > kwadranten A en D
>Variantie s 2
1
x x 2
Waarde geeft alleen + of – aan, geen sterkte.
n 1
i
x x
1 2
s
n 1
i
>Standaarddeviatie (wortel) delen door n -1
Alleen gebruiken als gemiddelde als centrum van de metingen is genomen
0: alleen wanneer er geen spreiding is, dezelfde waarden. Hoe groter s, hoe groter spreiding
Niet resistent, een paar uitbijters maakt standaard deviatie erg groot
>Stappen: Gemiddelde score – gemiddelde (score-gemiddelde)²√ (score-gemiddelde)²
Standaardproeffluctuaties
*Steekproef gemiddelde ≠ populatie gemiddeld
*Betrouwbaarheidsinterval (BHI): geeft onzekerheidsmarge rondom schattingen. We weten met …%
zekerheid dat het gemiddelde van alle scores ligt tussen …en…
*Steekproef geeft geen precieze waarde aan van populatie, het is een inschatting. Hoe meer
steekproeven je neemt, hoe dichter je bij de populatiewaarde komt
Week 37 – college 1 Hoofdstuk 1.3
Data analyse – strategie
Per variabele: geeft data grafische weer
Let op: verdeling scores, centrum en spreiding scores. Algemeen patroon en uitbijters
Bereken zinvolle samenvattingsmaten voor centrum en spreiding
Bereken BHI’s rond samenvattingsmaten (data uit steekproef i.p.v. populatie)
Histogram
- Voordeel: weergave van geobserveerde scores i.p.v. een benadering
- Nadelen: meestal minder efficiënte samenvatting (veel staven, weinig overzicht) dan curve
en vorm verandert als je andere klassenindeling kiest
Curve in grafiek: beschrijft functie (y) als functie van x
1. Dichtheidscurve: geeft aan hoeveel van de scores in een willekeurig te kiezen interval vallen
(en niet frequentie per klasse van scores) Je spreekt in een gebied, welk deel van de scores
>Altijd boven de x-as
>Totale oppervlakte onder curve = 1 (100%). Oppervlakte boven bepaald interval van
waarden geeft welk deel van de scores in dit interval viel (boven de x-as)
>Geeft GEEN frequenties. Y-waarde zelf interpreteerbaar, alleen naar oppervlaktes onder
curve kijken
2. Normale curve = normale verdeling: symmetrisch
>Gladgestreken beeld van de verdeling van de scores >Maten voor: centrum en spreiding
1. Modus = vaakst voorkomende score, score waar grafiek het hoogst is (x-as)
2. Mediaan = score waarvan links en rechts 50% oppervlakte onder curve
3. Gemiddelde () = punt waarop grafiek in ‘balans’ is
4. Standaarddeviatie/-afwijking () = bij normale verdeling afstand tussen midden en
buigpunt
5. Unimodale verdeling: symmetrische verdeling mediaan = gemiddelde = modus
6. Standaardvariantie = standaarddeviatie²