Beschrijvende statistiek aantekeningen
College 1: Introductie
Typen variabelen
- Type variabele bepaald welke analyse je moet toepassen
1. Categorische variabelen
- Variabelen indelen in categorieën
- De waarden zijn categorieën
- Bijvoorbeeld: haarkleur, geslacht etc.
- Je kan hier niet mee rekenen (je kunt wel een nummer toekennen aan elke
categorie)
- Meetniveaus: nominaal (bijv: wat is je lievelingseten?) of ordinaal (bijv:
opleidingsniveau of stellingen)
- Grafiekvormen: cirkeldiagram, staafdiagram en frequentietabel
2. Kwantitatieve variabelen
- Hebben cijfers/waarden
o Waarde is hoeveel je van die variabele hebt
- Hebben wel betekenis
- De waarde representeert de grootte van de variabele
- Bijvoorbeeld: leeftijd
- Meetniveaus: interval (bijv: IQ) of ratio (bijv: inkomen)
- Grafiekvormen: dotplot, stem and leaf (stengel en blad) en histogram
- 2 soorten kwantitatieve variabelen:
o Discrete variabele
Slechts gehele waarden
Vaste waarden zonder tussenliggende variabel
Bijvoorbeeld: aantal kinderen in een gezin
Hele getallen (7, 9, 22)
o Continue variabele
Waarden kunnen onbeperkt weinig van elkaar verschillen
Alle mogelijke waarden vormen een continuüm
Tussenliggende waarden hebben wel een betekenis
Bijvoorbeeld: lengte (177,5 cm)
Oneindig aantal mogelijke waarde (niet specifiek aantal)
Modus: waarde met de grootste frequentie
Gemiddelde: som van alle waarden gedeeld door het aantal waarden
Mediaan: de middelste waarde
Soorten statistiek
- Toetsende statistiek
o Statistic (statistiek): samenvatting van steekproef uit populatie
o Parameter: samenvatting van de populatie
o Ookwel inferentiële/inductieve statistiek genoemd
o Het gebruiken van ‘statistic’ om iets te zeggen over die populatie
(parameter)
1
, o Met hoeveel zekerheid kunnen we zeggen dat de gegevens uit de
steekproef ook iets zeggen over hoe die populatie in elkaar zit?
o Je maakt inferenties en generaliseert van je steekproef naar je populatie
- Beschrijvende statistiek
o Beschrijven en samenvatten van je data
o Vooral over de steekproef
o Patronen proberen te ontdekken in je data
Beschrijvende statistiek
A) Voor één variabele
- Beschrijven door middel van grafische weergave van data
- Kijken naar goede centrummaten
o 1 representatieve waarde om je data weer te geven (bijv: gemiddelde of
mediaan).
- Kijken naar goede spreidingsmaten
B) Voor categoriale variabele
- Grafische weergave met bijvoorbeeld: cirkeldiagram of staafdiagrammen
o Gebruiken voor werkelijke aantallen of percentages
- Weergaven in frequentietabellen
- Correct categorie = modale categorie
o De categorie waarin de meeste waarden zitten
C) Voor kwantitatieve variabelen
- De waarden in de frequentietabel hebben numerieke betekenis. Het gaat nu om
het aantal
- Kijken naar de modus, mediaan en het gemiddelde (centrummaten)
o Mediaan: data eerst ordenen van klein naar groot > dan in 2e delen >
middelste waarde is de mediaan
o Gemiddelde: houdt rekening met alle waarde in je data set
- Formule gemiddelde:
o X = waarde die erbij hoort
o I = elke individuele observatie (bijv: van het specifieke kind
o N = aantal observaties de omvang van je steekproef
- Gemiddelde van frequentieverdeling
o Formule:
2
, o Som teken = alles om het somteken optellen bij elkaar
o Een snellere manier gebruik maken van gegevens die in je
frequentietabel staan
- Mediaan versus gemiddelde
o Welke je gebruikt hangt af van de verdeling van de waarden/variabele
o Normaalverdeling: mediaan en gemiddelde zijn gelijk aan elkaar. In
principe gebruik je de mediaan
o Scheve verdeling:
Gemiddelde wordt te veel omlaag of omhooggetrokken
Scheef naar links; de staart is link
Beter de mediaan kiezen voor representatiever beeld. Ook bij
uitschieters.
3
, College 2: Spreiding in data
- Staafdiagram: ruimte tussen de staven
- Cirkel en staafdiagram is minder handig bij veel mogelijke waarden
Kwantitatieve variabele grafische weergeven
- Histogram wordt vaak gebruikt
- Dotplots gebruikt bij een kleine data set (minder vaak gebruikt)
- Steelblad diagram
- Histogram:
o Staven tegen elkaar
o Gebruiken van intervallen/klassen op de x-as
o Frequentietabel maken en opdelen van intervallen in gelijke grootte
o Tussen 5 á 10 klassen aanhouden voor een goed leesbaar histogram
o X-as is de range van oplopende waarde
o Informatiever dan een staafdiagram
o Als je een bepaalde waarde niet hebt, geeft dat een gat weer.
Spreiding
- Om iets te zeggen over de steekproef is een centrummaat en spreiding nodig
- Je data is variabel, 1 centrummaat is niet genoeg.
- Centrummaat geeft geen informatie over de spreiding
- Spreidingsmaat gebruiken om te bepalen wat een ‘normale’ score is
- Verschillende manieren kijken naar spreiding van scores:
o Kijken naar het bereik (range)
o Interkwartiel afstand
o Boxplot
o Dotplot
o Deviatie
- Spreidingsmaten: range (bereik), interkwartiel afstand en standaarddeviatie
Kijken naar het bereik (range)
- Range of variatiebreedte genoemd
- Verschil tussen maximum en minimum score; de laagste en hoogste waarden van
elkaar aftrekken
- Wordt sterk beïnvloed door extreme waarde
- Geen resistente manier om spreiding in data weer te geven
- Kan niet negatief zijn! Altijd positief of nul
Interkwartiel afstand (IKA)
- Gebaseerd op percentielen
o Deelt je data op in 100 stukjes
o P50 = mediaan
o Werken met p25, p50 en p75
o P% van je data is kleiner of gelijk aan is
- Gebruiken bij scheef verdeelde data
- Behorende spreidingsmaat bij mediaan Waard %
e
7 73%
4 8 74%
9 77%
10 81%
College 1: Introductie
Typen variabelen
- Type variabele bepaald welke analyse je moet toepassen
1. Categorische variabelen
- Variabelen indelen in categorieën
- De waarden zijn categorieën
- Bijvoorbeeld: haarkleur, geslacht etc.
- Je kan hier niet mee rekenen (je kunt wel een nummer toekennen aan elke
categorie)
- Meetniveaus: nominaal (bijv: wat is je lievelingseten?) of ordinaal (bijv:
opleidingsniveau of stellingen)
- Grafiekvormen: cirkeldiagram, staafdiagram en frequentietabel
2. Kwantitatieve variabelen
- Hebben cijfers/waarden
o Waarde is hoeveel je van die variabele hebt
- Hebben wel betekenis
- De waarde representeert de grootte van de variabele
- Bijvoorbeeld: leeftijd
- Meetniveaus: interval (bijv: IQ) of ratio (bijv: inkomen)
- Grafiekvormen: dotplot, stem and leaf (stengel en blad) en histogram
- 2 soorten kwantitatieve variabelen:
o Discrete variabele
Slechts gehele waarden
Vaste waarden zonder tussenliggende variabel
Bijvoorbeeld: aantal kinderen in een gezin
Hele getallen (7, 9, 22)
o Continue variabele
Waarden kunnen onbeperkt weinig van elkaar verschillen
Alle mogelijke waarden vormen een continuüm
Tussenliggende waarden hebben wel een betekenis
Bijvoorbeeld: lengte (177,5 cm)
Oneindig aantal mogelijke waarde (niet specifiek aantal)
Modus: waarde met de grootste frequentie
Gemiddelde: som van alle waarden gedeeld door het aantal waarden
Mediaan: de middelste waarde
Soorten statistiek
- Toetsende statistiek
o Statistic (statistiek): samenvatting van steekproef uit populatie
o Parameter: samenvatting van de populatie
o Ookwel inferentiële/inductieve statistiek genoemd
o Het gebruiken van ‘statistic’ om iets te zeggen over die populatie
(parameter)
1
, o Met hoeveel zekerheid kunnen we zeggen dat de gegevens uit de
steekproef ook iets zeggen over hoe die populatie in elkaar zit?
o Je maakt inferenties en generaliseert van je steekproef naar je populatie
- Beschrijvende statistiek
o Beschrijven en samenvatten van je data
o Vooral over de steekproef
o Patronen proberen te ontdekken in je data
Beschrijvende statistiek
A) Voor één variabele
- Beschrijven door middel van grafische weergave van data
- Kijken naar goede centrummaten
o 1 representatieve waarde om je data weer te geven (bijv: gemiddelde of
mediaan).
- Kijken naar goede spreidingsmaten
B) Voor categoriale variabele
- Grafische weergave met bijvoorbeeld: cirkeldiagram of staafdiagrammen
o Gebruiken voor werkelijke aantallen of percentages
- Weergaven in frequentietabellen
- Correct categorie = modale categorie
o De categorie waarin de meeste waarden zitten
C) Voor kwantitatieve variabelen
- De waarden in de frequentietabel hebben numerieke betekenis. Het gaat nu om
het aantal
- Kijken naar de modus, mediaan en het gemiddelde (centrummaten)
o Mediaan: data eerst ordenen van klein naar groot > dan in 2e delen >
middelste waarde is de mediaan
o Gemiddelde: houdt rekening met alle waarde in je data set
- Formule gemiddelde:
o X = waarde die erbij hoort
o I = elke individuele observatie (bijv: van het specifieke kind
o N = aantal observaties de omvang van je steekproef
- Gemiddelde van frequentieverdeling
o Formule:
2
, o Som teken = alles om het somteken optellen bij elkaar
o Een snellere manier gebruik maken van gegevens die in je
frequentietabel staan
- Mediaan versus gemiddelde
o Welke je gebruikt hangt af van de verdeling van de waarden/variabele
o Normaalverdeling: mediaan en gemiddelde zijn gelijk aan elkaar. In
principe gebruik je de mediaan
o Scheve verdeling:
Gemiddelde wordt te veel omlaag of omhooggetrokken
Scheef naar links; de staart is link
Beter de mediaan kiezen voor representatiever beeld. Ook bij
uitschieters.
3
, College 2: Spreiding in data
- Staafdiagram: ruimte tussen de staven
- Cirkel en staafdiagram is minder handig bij veel mogelijke waarden
Kwantitatieve variabele grafische weergeven
- Histogram wordt vaak gebruikt
- Dotplots gebruikt bij een kleine data set (minder vaak gebruikt)
- Steelblad diagram
- Histogram:
o Staven tegen elkaar
o Gebruiken van intervallen/klassen op de x-as
o Frequentietabel maken en opdelen van intervallen in gelijke grootte
o Tussen 5 á 10 klassen aanhouden voor een goed leesbaar histogram
o X-as is de range van oplopende waarde
o Informatiever dan een staafdiagram
o Als je een bepaalde waarde niet hebt, geeft dat een gat weer.
Spreiding
- Om iets te zeggen over de steekproef is een centrummaat en spreiding nodig
- Je data is variabel, 1 centrummaat is niet genoeg.
- Centrummaat geeft geen informatie over de spreiding
- Spreidingsmaat gebruiken om te bepalen wat een ‘normale’ score is
- Verschillende manieren kijken naar spreiding van scores:
o Kijken naar het bereik (range)
o Interkwartiel afstand
o Boxplot
o Dotplot
o Deviatie
- Spreidingsmaten: range (bereik), interkwartiel afstand en standaarddeviatie
Kijken naar het bereik (range)
- Range of variatiebreedte genoemd
- Verschil tussen maximum en minimum score; de laagste en hoogste waarden van
elkaar aftrekken
- Wordt sterk beïnvloed door extreme waarde
- Geen resistente manier om spreiding in data weer te geven
- Kan niet negatief zijn! Altijd positief of nul
Interkwartiel afstand (IKA)
- Gebaseerd op percentielen
o Deelt je data op in 100 stukjes
o P50 = mediaan
o Werken met p25, p50 en p75
o P% van je data is kleiner of gelijk aan is
- Gebruiken bij scheef verdeelde data
- Behorende spreidingsmaat bij mediaan Waard %
e
7 73%
4 8 74%
9 77%
10 81%