Beschrijvende statistiek
Hoorcolleges
Hoorcollege 1
Fundamentele begrippen
• Populatie = totaal van elementen/personen waarin je geïnteresseerd bent
• Steekproef = een kleiner deel van de populatie die je gaat onderzoeken
• Categorische variabelen = zijn in te delen in categorieën (bijv. geslacht), er kunnen
cijfers gebruikt worden maar die hebben geen betekenis
• Kwantitatieve variabele = de waarde representeer hoeveel je van iets hebt (bijv.
leeftijd), de cijfers die gebruikt worden hebben betekenis
- Discrete variabele = er zijn een aantal vaste waarden en daar ligt niks tussen (bijv.
aantal kinderen per gezin, je kan niet 1,5 kind hebben)
- Continue variabele = de tussenliggende waarde hebben ook betekenis (bijv. lengte,
alle mogelijke waarden hebben betekenis)
• Statistic (statistiek/steekproefwaarde) = een samenvatting van de data, gebruik je om
de parameter in te schatten
• Parameter = samenvatting van de data van de populatie (bijv. een gemiddelde)
• Beschrijvende statistiek = gericht op het samenvatten, beschrijven en grafisch
weergeven van data
• Toetsende statistiek = gericht op wat de data over da populatie zegt
Beschrijvende statistiek voor één variabele
• Grafische weergave
• Centrummaten
• Spreidingsmaten
Beschrijvende statistiek voor categorische variabele
• Grafische weergave
- Cirkeldiagram > handig om percentages in de taartpunten weer te geven
- Staafdiagram > bevat geen tussenwaardes, de staven kunnen los van elkaar staan
• Frequentietabel > bevat de frequentie en evt. percentages
Beschrijvende statistiek voor kwantitatieve variabele
• Modus = de waarde die het vaakst voorkomt
- Wordt vaker gebruikt bij categorische variabele
• Mediaan = na het ordenen van je data is het de waarde die precies in het midden ligt
- Wordt vaker gebruikt bij de kwantitatieve variabele
- Mediaan vindt jij bij de kolom van de cumulatieve percentage in een frequentietabel
> bij de mediaan ligt 50% eronder en 50% boven die waarde, je gaat opzoek naar het
cumulatieve percentage rond de 50%
- De mediaan is nuttig om te achterhalen wanneer je uitschieters hebt omdat die veel
invloed op je gemiddelde zullen hebben
, • Het gemiddelde
Mediaan vs. gemiddelde
• Of het beter is om de mediaan of het gemiddelde te gebruiken is afhankelijk van de
verdeling van je data, als deze scheef is kun je het beste de mediaan gebruiken
- Hoogte van de lijn geeft aan hoe vaak een score voorkomt
- Klokvormige verdeling > dan maakt het niet uit welke je gebruikt
, - Scheef naar linkse verdeling > meer mensen zitten aan de hoge kant, maar het
gemiddelde wordt omlaag getrokken
- Scheef naar rechts verdeling
Hoorcollege 2
Spreiding
• Bereik (variatiebreedte) = geeft weer binnen welke afstand van elkaar geobserveerde
waarden zich bevinden
- Berekenen door maximum - minimum
• Percentielen = het percentiel is de waarde waarvoor geld dat ‘p’ procent van de
waarnemingen kleiner is, of gelijk aan is
- Bijv. de waarde waarvoor de helft van alle waarnemingen kleiner of gelijk is, heet het
50ste percentiel (P50) en wordt ook wel de mediaan genoemd
- Bij het zoeken nar het 75e percentiel kun je kijken naar het cumulatieve percentage,
deze moet dan 75% of hoger liggen. Die frequentie hoort bij het 75 e percentiel
, • Interkwartielafstand = verdeelt de data in vier gelijke stukken, de kwartielafstand
(IQR) = Q3 – Q1
→ Wordt voornamelijk gebruikt voor scheve verdelingen, deze is niet gevoelig voor
uitschieters
- Q1 = Percentiel P25
- Q2 = mediaan P50
- Q3 = Percentiel75
- Q4 = Percentiel 100
- Interkwartielafstand (IKA) kan ingezet worden om uitschieters in de data vast te
stellen > Q1 – 1.5 x IKA & Q3 + 1.5 x IKA, alles wat hierboven of hieronder uitkomt
zijn uitschieters (deze formule uit hoofd kennen, niet in formule boek)
Boxplot
• Boxplot = brengt uitschieters in beeld op basis van de Interkwartielafstand
- De streepjes aan het uiteinde kunnen wegvallen wanneer de verdeling heel scheef is
Deviatie = de afstand tussen de geobserveerde waarde tot het gemiddelde
• Het gemiddelde wordt telkens van de waarde afgetrokken (andersom kan niet!) > het
is van belang dat je uiteindelijk positieve en negatieve waarde hebt
- Als de waarde in de min staat zit die persoon onder het gemiddelde
- Als de waarde boven de 0 is zit die persoon boven het gemiddelde
Hoorcolleges
Hoorcollege 1
Fundamentele begrippen
• Populatie = totaal van elementen/personen waarin je geïnteresseerd bent
• Steekproef = een kleiner deel van de populatie die je gaat onderzoeken
• Categorische variabelen = zijn in te delen in categorieën (bijv. geslacht), er kunnen
cijfers gebruikt worden maar die hebben geen betekenis
• Kwantitatieve variabele = de waarde representeer hoeveel je van iets hebt (bijv.
leeftijd), de cijfers die gebruikt worden hebben betekenis
- Discrete variabele = er zijn een aantal vaste waarden en daar ligt niks tussen (bijv.
aantal kinderen per gezin, je kan niet 1,5 kind hebben)
- Continue variabele = de tussenliggende waarde hebben ook betekenis (bijv. lengte,
alle mogelijke waarden hebben betekenis)
• Statistic (statistiek/steekproefwaarde) = een samenvatting van de data, gebruik je om
de parameter in te schatten
• Parameter = samenvatting van de data van de populatie (bijv. een gemiddelde)
• Beschrijvende statistiek = gericht op het samenvatten, beschrijven en grafisch
weergeven van data
• Toetsende statistiek = gericht op wat de data over da populatie zegt
Beschrijvende statistiek voor één variabele
• Grafische weergave
• Centrummaten
• Spreidingsmaten
Beschrijvende statistiek voor categorische variabele
• Grafische weergave
- Cirkeldiagram > handig om percentages in de taartpunten weer te geven
- Staafdiagram > bevat geen tussenwaardes, de staven kunnen los van elkaar staan
• Frequentietabel > bevat de frequentie en evt. percentages
Beschrijvende statistiek voor kwantitatieve variabele
• Modus = de waarde die het vaakst voorkomt
- Wordt vaker gebruikt bij categorische variabele
• Mediaan = na het ordenen van je data is het de waarde die precies in het midden ligt
- Wordt vaker gebruikt bij de kwantitatieve variabele
- Mediaan vindt jij bij de kolom van de cumulatieve percentage in een frequentietabel
> bij de mediaan ligt 50% eronder en 50% boven die waarde, je gaat opzoek naar het
cumulatieve percentage rond de 50%
- De mediaan is nuttig om te achterhalen wanneer je uitschieters hebt omdat die veel
invloed op je gemiddelde zullen hebben
, • Het gemiddelde
Mediaan vs. gemiddelde
• Of het beter is om de mediaan of het gemiddelde te gebruiken is afhankelijk van de
verdeling van je data, als deze scheef is kun je het beste de mediaan gebruiken
- Hoogte van de lijn geeft aan hoe vaak een score voorkomt
- Klokvormige verdeling > dan maakt het niet uit welke je gebruikt
, - Scheef naar linkse verdeling > meer mensen zitten aan de hoge kant, maar het
gemiddelde wordt omlaag getrokken
- Scheef naar rechts verdeling
Hoorcollege 2
Spreiding
• Bereik (variatiebreedte) = geeft weer binnen welke afstand van elkaar geobserveerde
waarden zich bevinden
- Berekenen door maximum - minimum
• Percentielen = het percentiel is de waarde waarvoor geld dat ‘p’ procent van de
waarnemingen kleiner is, of gelijk aan is
- Bijv. de waarde waarvoor de helft van alle waarnemingen kleiner of gelijk is, heet het
50ste percentiel (P50) en wordt ook wel de mediaan genoemd
- Bij het zoeken nar het 75e percentiel kun je kijken naar het cumulatieve percentage,
deze moet dan 75% of hoger liggen. Die frequentie hoort bij het 75 e percentiel
, • Interkwartielafstand = verdeelt de data in vier gelijke stukken, de kwartielafstand
(IQR) = Q3 – Q1
→ Wordt voornamelijk gebruikt voor scheve verdelingen, deze is niet gevoelig voor
uitschieters
- Q1 = Percentiel P25
- Q2 = mediaan P50
- Q3 = Percentiel75
- Q4 = Percentiel 100
- Interkwartielafstand (IKA) kan ingezet worden om uitschieters in de data vast te
stellen > Q1 – 1.5 x IKA & Q3 + 1.5 x IKA, alles wat hierboven of hieronder uitkomt
zijn uitschieters (deze formule uit hoofd kennen, niet in formule boek)
Boxplot
• Boxplot = brengt uitschieters in beeld op basis van de Interkwartielafstand
- De streepjes aan het uiteinde kunnen wegvallen wanneer de verdeling heel scheef is
Deviatie = de afstand tussen de geobserveerde waarde tot het gemiddelde
• Het gemiddelde wordt telkens van de waarde afgetrokken (andersom kan niet!) > het
is van belang dat je uiteindelijk positieve en negatieve waarde hebt
- Als de waarde in de min staat zit die persoon onder het gemiddelde
- Als de waarde boven de 0 is zit die persoon boven het gemiddelde