Statistiek I (Beschrijvende statistiek)
1.Belangrijke begrippen
1.Variabele
- Variabele = kenmerk dat je kan meten en dat varieert. (vb. lengte, gewicht,…)
- Analyses:
o Univariaat = één variabele.
o Bivariaat = twee variabelen.
o Multivariaat = meerdere variabelen.
o Afhankelijke variabele (y) = kenmerk dat we willen weten. (vb. salaris)
▪ Geoperationaliseerd = hoe afhankelijke variabele gemeten kan worden.
o Onafhankelijke variabele (x) = onafhankelijke verklaart afhankelijke. (vb. scholingsgraad)
- Soorten variabelen:
o Categorieën/labels:
▪ Nominale variabele = kan je niet rangschikken. (vb. geslacht, woonplaats)
• Dichotoom = twee mogelijkheden. (vb. man/vrouw)
• Polytoom = meer dan twee mogelijkheden. (vb. provincie)
▪ Ordinale variabele = wel rangschikken. (vb. laag/hoog geschoold)
• Opinievragen: akkoord, neutraal, niet akkoord
o Numeriek/kwantitatief:
▪ Interval variabele = geen nulpunt. (vb. temperatuur)
• Continue interval variabele = kan afwijken (vb. temperatuur)
• Discrete interval variabele = beperkt. (vb. geboortejaar)
▪ Ratio variabele = wel nulpunt. (vb. aantal kinderen)
• Continue ratio variabele = kan afwijken. (vb. gewicht)
• Discrete ratio variabele = beperkt. (vb. aantal kinderen)
- Discrete waarden = getallen zonder kommagetallen. (vb. aantal kinderen)
- Continue waarden = tussenwaarden. (vb. lengte in cm en mm)
- Out liers = getallen die erbij komen en invloed hebben op uitslag.
2.Populatie/steekproef
- Populatie = alle elementen waarover je uitspraken wil doen. (vb. Vlaamse jongeren)
o Onderzoekselementen = individuele onderdelen populatie.
- Steekproef = elementen die je betrekt in je onderzoek. (vb. Antwerpse jongeren)
3.Centrummaten/spreidingsmaten
1.Maten van centraliteit
- Modus = waarde meeste voorkomt.
- Mediaan = rangschikken van laag naar hoog en middelste waarde.
o Q2, D5, P50
- Kwartielen/decielen/percentielen = waarden waaronder minstens …% van gegevens ligt.
o Kwartiel: (vb. Q1: 25%, D2: 50%, Q3: 75%, Q4: 100%)
▪ Berekenen: getal op 25e of gemiddelde van 25e en 26e
o Deciel: (vb. D1: 10%, D5: 50%, D10: 100%)
o Percentiel: (vb. P1: 1%, P23: 23%, P100 : 100%)
- Gemiddelde x = alles optellen en delen door aantal.
o Steekproefgrootte n
1
, 2.Maten van spreiding
- Bereik = afstand tussen laagste en hoogste waarde.
o Boxplot = minimum – Q1 – mediaan – Q3 – maximum.
▪ Volledig → bereik
- Interkwartielafstand IKA = verschil tussen Q1 en Q3.
o Boxplot tussen Q1 en Q3 → interkwartiel
- Variantie s² = gemiddelde gekwadrateerde afwijking tegenover gemiddelde.
o Afstand ten opzichte van gemiddelde bekijken
- Standaardafwijking s = vierkantswortel van variantie.
o Standaardafwijking = 0 → alle data dezelfde waarde
3.Vormen verdeling
- Normale verdeling = symmetrische verdeling (vb. IQ)
o Gauss curve: hoogte staat voor hoe vaak bepaalde
waarde voorkomt
o Mediaan/gemiddelde/modus zelfde waarde
o Scheefheid 0, steilheid 0
- Afwijkingen normale verdeling:
o Scheefheid:
▪ Rechtsscheve/positiefscheve verdeling = gemiddelde groter dan mediaan.
• Scheefheid +0
▪ Linksscheve/negatiefscheve verdeling = gemiddelde kleiner dan mediaan.
• Scheefheid -0
▪ Parametrische toetsen = numerieke waarde variabele blijven gebruiken. (vb.
lonen)
▪ Niet parametrische toetsen =
o Steilheid/vlakheid:
▪ Hoe hoger grafiek, positief
▪ Hoe lager grafiek, negatief
- Waarom statistiek?:
o Fundamentele onzekerheid in de realiteit: zaken variëren
o Weerbaar zijn in een samenleving gedreven door cijfers
o Uitzonderingsbubbel doorprikken
o Statistiek als noodzaak: nog steeds in ontwikkeling
o Empirie (kennis) om beweringen te staven:
▪ Beweringen op zich zijn niet voldoende, nood aan empirie
▪ Data verzamelen volgens regels kunst (vb. onderzoeksmethoden)
▪ Data analyseren met juiste techniek en ruimte voor onzekerheid (vb. statistiek II)
2