Hoorcollege 1: meten en frequentieverdelingen
Datamatrix: overzicht van verzamelde data, verdeeld per onderzoekseenheid
(verticaal) en per
variabele (horizontaal).
- Variabele: een gemeten grootheid die kan variëren.
o Afhankelijke variabele: het gevolg; de te verklaren variabele (Y-as).
o Onafhankelijke variabele: de oorzaak; de verklaring voor (invloed op)
de afhankelijke variabele (X-as).
o Discrete variabele (kwantitatief): variabele die slechts een bepaald
aantal waarden kan aannemen; een verschil tussen twee waarden is altijd
één eenheid of meer vaste eenheden.
Nominale en interval variabelen zijn discreet
o Continue variabele (kwantitatief): variabele waarvoor geldt dat er
tussen twee gegeven waarden altijd een derde ligt: bij het meten van
continue variabelen zijn de scores altijd afgeronde getallen (een
benadering van de feitelijke score).
- Onderzoekseenheid (case): eenheid waarbij de variabele gemeten wordt.
Staat in de rijen in de datamatrix.
- Score: waarde van een onderzoekseenheid op een variabele. Staat in de
cellen.
Vier meetniveaus
1. Nominaal: waarden geven categorieën aan zonder volgorde.
2. Ordinaal: waarden geven categorieën aan met volgorde.
3. Interval: waarden geven volgorde aan en hebben gelijke intervallen tussen
waarden dezelfde betekenis.
4. Ratio: waarden geven volgorde aan, gelijke intervallen tussen de waarden
hebben dezelfde betekenis en een absoluut nulpunt.
Gegevens ordenen en samenvatten met frequentieverdelingen
Frequentie: de frequentie (fi) is het aantal keer dat een bepaalde waarde (X i)
voorkomt.
- Absolute frequentie: het aantal keer dat een bepaalde waarde voorkomt.
o N = het totaal aantal deelnemers in de onderzoeksgroep
, o X = Score
o f = frequentie (hoe vaak komt de score voor)
o i = indexnummer; loopt van 1 tot N
- Relatieve frequentie: frequentie t.o.v. het totaal.
o Proportie: de absolute frequentie (fi) gedeeld door het totaal aantal
waarden (N); altijd een waarde tussen 0 en 1.
p fi
i=¿ ¿
N
o Percentage: proportie * 100%
- Cumulatieve absolute frequentie (cfi): de frequentie tot en met een
bepaalde waarde (Xi); som van frequenties
cf i
o Cumulatieve proportie:
N
cf
o Cumulatief percentage: i *100
N
o Percentielscores zijn hetzelfde als de cumulatieve percentages
Wanneer welke?
- Absoluut: bij exacte hoeveelheden, zorgt voor minder misleiding.
- Relatief: groepen met ongelijke grootte vergelijken.
- Cumulatieve relatieve frequentie: Relatieve positie weergeven.
Het gebruik van percentielen op twee manieren:
1. Van score X naar percentiel P: Cliënt heeft score X, welk percentiel hoort
daarbij?
Oftewel: Hoeveel % van de onderzoeksgroep scoort gelijk aan, of lager dan,
de cliënt?
2. Van percentiel P naar score X: Welke score hoort bij P10?
Oftewel: Welke score of lager moet iemand halen om bij de laagste 10% van
de onderzoeksgroep te horen?
Hoorcollege 2: centrum- en spreidingsmaten
Centrummaten
Centrummaten: geven aan rond welke waarde/score de meeste onderzoek
elementen gecentreerd liggen. Ook geven ze een samenvatting van de
frequentieverdeling. Daarnaast kun je met centrummaten groepen vergelijken.
Er zijn drie centrummaten:
1. Modus
2. Mediaan
3. Gemiddelde
Centrummaat 1: modus
Modus: de meest voorkomende waarde (m.a.w. waarde met de hoogste
frequentie)
Voordelen:
- Bij alle meetniveaus te gebruiken
- Snel uit frequentietabel of histogram af te lezen
Nadelen:
- Je kan niet altijd een modus bepalen. Dit probleem speelt voornamelijk bij
interval/ratio meetniveau.
,- Gebruikt weinig informatie
- Instabiel
- Afhankelijk van klasseindeling
- Er kunnen meerdere waarden het meeste voorkomen
o Bimodaal: twee waarden hebben de hoogste frequentie
o Multimodaal: meer dan twee waarden hebben de hoogste frequentie
- Belangrijk om zelf goed in de dataset te kijken of er meerdere modi zijn, SPSS
geeft dit niet aan.
Centrummaat 2: mediaan
Mediaan: waarde van de middelste waarneming wanneer de waarnemingen in
volgorde van laag naar hoog staan. De mediaan kijkt niet alleen naar de
frequentie, maar ook naar de rangorde. Als je alle waardes van laag naar hoog
ordent, dan is de mediaan de middelste waarde (=P50, 50 e percentiel).
- Vanaf ordinaal meetniveau te gebruiken
- Bij oneven aantal waarnemingen: middelste score
- Bij even aantal waarnemingen: gemiddelde van de middelste twee scores
Voordelen:
- Snel uit cumulatieve percentages af te lezen (P50)
- Neemt de rangorde informatie mee
- Stabieler dan de modus
- Ongevoelig voor uitschieters
Nadelen:
- Gebruikt enkel frequentie en rangorde, dus geeft beperkte informatie over de
scores.
- Je kunt niet rekenen met de mediaan.
Centrummaat 3: gemiddelde
Gemiddelde: de som van alle scores gedeeld door het totaal aantal scores:
N
∑ Xi
X = i=1
N
- X :steekproef-gemiddelde
- µ: populatie-gemiddelde
- Te gebruiken bij ratio/interval meetniveau
Gewogen gemiddelde: gemiddelde waarbij sommige waardes zwaarder
k
meewegen t.o.v. andere waardes; :
∑ f i Xi
X = i=1
N
Voordelen:
- Gebruikt alle informatie die je hebt
- Relatief stabiel
- Geschikt om mee verder te rekenen
Nadelen:
- Gevoelig voor uitschieters
- Gevoelig voor scheefheid
- Alleen geschikt voor interval of ratio meetniveau
, Uitschieters en scheefheid
Uitschieters (outliers): extreme waarden. Gemiddelden zijn erg gevoelig voor
outliers. Een mediaan is het minst gevoelig. Verwacht je grote outliers, gebruik
dan de mediaan als indicatie voor het centrum van de verdeling.
- Mediaan blijft op de P50 zitten
- Modus ligt nog steeds in de verdeling
- Gemiddelde ligt veel hoger door een uitschieter en is niet representatief
Normale verdeling: klokvormig, symmetrisch en ééntoppig. Modus = mediaan
= gemiddelde.
Scheefheid: niet symmetrische verdeling in tegenstelling tot de normale
verdeling.
- Bij links scheve verdeling (negatief scheef): gemiddelde < mediaan < modus.
- Bij rechts scheve verdeling (positief scheef): modus < mediaan < gemiddelde.
Links scheve verdeling Rechts scheve verdeling
Spreidingsmaten
Spreidingsmaten: gaan over hoe ver scores uit elkaar liggen.
Er zijn vier verschillende soorten spreidingsmaten:
1. Range (bereik)
2. Interkwartielafstand
3. Variantie
4. Standaarddeviatie
Spreidingsmaat 1: range
Range: maximale waarde in de dataset aftrekken van de minimale waarde in de
dataset;
Xmax - Xmin, waarbij geldt:
- Xmax = hoogste score die voorkomt, maximum
- Xmin = laagste score die voorkomt, minimum
Voordelen:
- Al vanaf ordinaal meetniveau te gebruiken
- Eenvoudige spreidingsmaat
Datamatrix: overzicht van verzamelde data, verdeeld per onderzoekseenheid
(verticaal) en per
variabele (horizontaal).
- Variabele: een gemeten grootheid die kan variëren.
o Afhankelijke variabele: het gevolg; de te verklaren variabele (Y-as).
o Onafhankelijke variabele: de oorzaak; de verklaring voor (invloed op)
de afhankelijke variabele (X-as).
o Discrete variabele (kwantitatief): variabele die slechts een bepaald
aantal waarden kan aannemen; een verschil tussen twee waarden is altijd
één eenheid of meer vaste eenheden.
Nominale en interval variabelen zijn discreet
o Continue variabele (kwantitatief): variabele waarvoor geldt dat er
tussen twee gegeven waarden altijd een derde ligt: bij het meten van
continue variabelen zijn de scores altijd afgeronde getallen (een
benadering van de feitelijke score).
- Onderzoekseenheid (case): eenheid waarbij de variabele gemeten wordt.
Staat in de rijen in de datamatrix.
- Score: waarde van een onderzoekseenheid op een variabele. Staat in de
cellen.
Vier meetniveaus
1. Nominaal: waarden geven categorieën aan zonder volgorde.
2. Ordinaal: waarden geven categorieën aan met volgorde.
3. Interval: waarden geven volgorde aan en hebben gelijke intervallen tussen
waarden dezelfde betekenis.
4. Ratio: waarden geven volgorde aan, gelijke intervallen tussen de waarden
hebben dezelfde betekenis en een absoluut nulpunt.
Gegevens ordenen en samenvatten met frequentieverdelingen
Frequentie: de frequentie (fi) is het aantal keer dat een bepaalde waarde (X i)
voorkomt.
- Absolute frequentie: het aantal keer dat een bepaalde waarde voorkomt.
o N = het totaal aantal deelnemers in de onderzoeksgroep
, o X = Score
o f = frequentie (hoe vaak komt de score voor)
o i = indexnummer; loopt van 1 tot N
- Relatieve frequentie: frequentie t.o.v. het totaal.
o Proportie: de absolute frequentie (fi) gedeeld door het totaal aantal
waarden (N); altijd een waarde tussen 0 en 1.
p fi
i=¿ ¿
N
o Percentage: proportie * 100%
- Cumulatieve absolute frequentie (cfi): de frequentie tot en met een
bepaalde waarde (Xi); som van frequenties
cf i
o Cumulatieve proportie:
N
cf
o Cumulatief percentage: i *100
N
o Percentielscores zijn hetzelfde als de cumulatieve percentages
Wanneer welke?
- Absoluut: bij exacte hoeveelheden, zorgt voor minder misleiding.
- Relatief: groepen met ongelijke grootte vergelijken.
- Cumulatieve relatieve frequentie: Relatieve positie weergeven.
Het gebruik van percentielen op twee manieren:
1. Van score X naar percentiel P: Cliënt heeft score X, welk percentiel hoort
daarbij?
Oftewel: Hoeveel % van de onderzoeksgroep scoort gelijk aan, of lager dan,
de cliënt?
2. Van percentiel P naar score X: Welke score hoort bij P10?
Oftewel: Welke score of lager moet iemand halen om bij de laagste 10% van
de onderzoeksgroep te horen?
Hoorcollege 2: centrum- en spreidingsmaten
Centrummaten
Centrummaten: geven aan rond welke waarde/score de meeste onderzoek
elementen gecentreerd liggen. Ook geven ze een samenvatting van de
frequentieverdeling. Daarnaast kun je met centrummaten groepen vergelijken.
Er zijn drie centrummaten:
1. Modus
2. Mediaan
3. Gemiddelde
Centrummaat 1: modus
Modus: de meest voorkomende waarde (m.a.w. waarde met de hoogste
frequentie)
Voordelen:
- Bij alle meetniveaus te gebruiken
- Snel uit frequentietabel of histogram af te lezen
Nadelen:
- Je kan niet altijd een modus bepalen. Dit probleem speelt voornamelijk bij
interval/ratio meetniveau.
,- Gebruikt weinig informatie
- Instabiel
- Afhankelijk van klasseindeling
- Er kunnen meerdere waarden het meeste voorkomen
o Bimodaal: twee waarden hebben de hoogste frequentie
o Multimodaal: meer dan twee waarden hebben de hoogste frequentie
- Belangrijk om zelf goed in de dataset te kijken of er meerdere modi zijn, SPSS
geeft dit niet aan.
Centrummaat 2: mediaan
Mediaan: waarde van de middelste waarneming wanneer de waarnemingen in
volgorde van laag naar hoog staan. De mediaan kijkt niet alleen naar de
frequentie, maar ook naar de rangorde. Als je alle waardes van laag naar hoog
ordent, dan is de mediaan de middelste waarde (=P50, 50 e percentiel).
- Vanaf ordinaal meetniveau te gebruiken
- Bij oneven aantal waarnemingen: middelste score
- Bij even aantal waarnemingen: gemiddelde van de middelste twee scores
Voordelen:
- Snel uit cumulatieve percentages af te lezen (P50)
- Neemt de rangorde informatie mee
- Stabieler dan de modus
- Ongevoelig voor uitschieters
Nadelen:
- Gebruikt enkel frequentie en rangorde, dus geeft beperkte informatie over de
scores.
- Je kunt niet rekenen met de mediaan.
Centrummaat 3: gemiddelde
Gemiddelde: de som van alle scores gedeeld door het totaal aantal scores:
N
∑ Xi
X = i=1
N
- X :steekproef-gemiddelde
- µ: populatie-gemiddelde
- Te gebruiken bij ratio/interval meetniveau
Gewogen gemiddelde: gemiddelde waarbij sommige waardes zwaarder
k
meewegen t.o.v. andere waardes; :
∑ f i Xi
X = i=1
N
Voordelen:
- Gebruikt alle informatie die je hebt
- Relatief stabiel
- Geschikt om mee verder te rekenen
Nadelen:
- Gevoelig voor uitschieters
- Gevoelig voor scheefheid
- Alleen geschikt voor interval of ratio meetniveau
, Uitschieters en scheefheid
Uitschieters (outliers): extreme waarden. Gemiddelden zijn erg gevoelig voor
outliers. Een mediaan is het minst gevoelig. Verwacht je grote outliers, gebruik
dan de mediaan als indicatie voor het centrum van de verdeling.
- Mediaan blijft op de P50 zitten
- Modus ligt nog steeds in de verdeling
- Gemiddelde ligt veel hoger door een uitschieter en is niet representatief
Normale verdeling: klokvormig, symmetrisch en ééntoppig. Modus = mediaan
= gemiddelde.
Scheefheid: niet symmetrische verdeling in tegenstelling tot de normale
verdeling.
- Bij links scheve verdeling (negatief scheef): gemiddelde < mediaan < modus.
- Bij rechts scheve verdeling (positief scheef): modus < mediaan < gemiddelde.
Links scheve verdeling Rechts scheve verdeling
Spreidingsmaten
Spreidingsmaten: gaan over hoe ver scores uit elkaar liggen.
Er zijn vier verschillende soorten spreidingsmaten:
1. Range (bereik)
2. Interkwartielafstand
3. Variantie
4. Standaarddeviatie
Spreidingsmaat 1: range
Range: maximale waarde in de dataset aftrekken van de minimale waarde in de
dataset;
Xmax - Xmin, waarbij geldt:
- Xmax = hoogste score die voorkomt, maximum
- Xmin = laagste score die voorkomt, minimum
Voordelen:
- Al vanaf ordinaal meetniveau te gebruiken
- Eenvoudige spreidingsmaat