Statistiek
Topic 1
Beschrijvende en inductieve statistiek
Beschrijvende statistiek
Hier beginnen we mee en dan gaan we over naar de inductieve
statistiek
Topic 4, 5, 6, 7
Inductieve statistiek
= inferentiële statistiek
Schatten en toetsen van parameters en hypothesen
De populatie waarin we geïnteresseerd zijn is vaak te groot. We moeten
dus een steekproef testen uit de populatie.
Via steekproef weet je veel over de populatie
Populatie (N)
= verzameling van entiteiten of subjecten die op zijn minst één
karakteristiek (eigenschap) gemeen hebben
Vb. Verschil in spierkracht nagaan tussen mannen en vrouwen. We
kunnen onmogelijk kijken bij alle mannen en vrouwen. Daarom
nemen we een steekproef.
N = populatiegrootte, doorgaans onbeperkt groot
Steekproef (n)
= deelverzameling van entiteiten of subjecten (toevallig) getrokken
uit de studiepopulatie. Best om via toeval te doen.
N (klein) = steekproefgrootte, beperkt
Variabelen
Variabele = karakteristiek van een populatie die verschillende
waarden (attributen) kan aannemen.
Attributen = een specifieke waarde die men aan een variabele
toekent
Vb. Leeftijd is een variabele (X = leeftijd). Leeftijd kan verschillende
waarden aannemen. Dit zijn de attributen. (X1 = 18, X2 = 18, X3 =
19)
, Vb. Geslacht van een patiënt is ook een variabele. De attributen zijn
hier: man, vrouw.
Onafhankelijke variabele = beïnvloedt of veroorzaakt de
studievariabelen
Afhankelijke variabele = wordt beïnvloed door andere
variabelen
Vb. Je doet onderzoek naar verschil in spierkracht tussen
mannen en vrouwen. Je hebt 2 variabele. 1e variabele is
spierkracht en de 2e is geslacht. De onafhankelijke variabele is
het geslacht. De afhankelijke variabele (of uitkomstvariabele)
is de spierkracht.
Meetniveau variabele
Nominaal = categorische variabele
Definitie: Dit meetniveau categoriseert gegevens zonder enige volgorde
of rangorde. De waarden zijn labels of namen en kunnen niet logisch
worden gerangschikt. Maar 1 antwoordmogelijkheid
Eigenschappen:
Geen volgorde tussen categorieën. (Ene vrouw niet perse beter dan
andere want beide zijn vrouwen)
Alleen gelijkheid of ongelijkheid kan worden vastgesteld.
Voorbeelden:
Geslacht: man, vrouw, non-binair.
Haarkleur: blond, bruin, zwart, rood.
Oogkleur: bruin, groen, grijs
Bloedgroep: A, B, AB, O
Merknamen: Apple, Samsung, Sony.
JA- NEE vragen
Belangrijk verschil: Geen rangorde of schaal; alleen classificatie.
2. Ordinaal = categorische variabele
Definitie: Dit meetniveau categoriseert gegevens met een volgorde,
maar de afstanden tussen de categorieën zijn niet gelijk of meetbaar.
,Eigenschappen:
Rangorde is belangrijk.
Afstanden tussen categorieën zijn niet kwantificeerbaar of
consistent.
Voorbeelden:
Leeftijd: je kan opdelen in leeftijdsklassen: 1, 2 en 3. Bij 1e
leeftijdsklasse breng je iedereen jonger dan 18. In de 2e iedereen
tussen 18-25. In de laatste iedereen ouder dan 25. Er is een
rangorde mogelijk. Iemand in catergorie 2 is ouder dan in categorie
1 en jonger dan categorie 3.
Opleidingsniveau: basisonderwijs, middelbaar, hoger onderwijs.
Klanttevredenheid: zeer ontevreden, ontevreden, neutraal, tevreden,
zeer tevreden.
Winnaars in een race: 1e plaats, 2e plaats, 3e plaats.
Inkomst van mensen
Mensen met een bepaald type kanker. Er zijn verschillende stadiums.
Graad van letsel is ordinale variabele. Als je in één zit, zit je niet in
de andere. Iemand met graad 4 is er erger aan toe dan iemand van
graad 1.
Belangrijk verschil: Er is een volgorde, maar je kunt geen precieze
afstand tussen de waarden berekenen.
3. Interval = numerieke variabele
Definitie: Gegevens hebben een volgorde, en de afstanden tussen
waarden zijn gelijk en meetbaar. Het nulpunt is echter arbitrair en
betekent niet "afwezigheid van waarde".
Eigenschappen:
Gelijke intervallen tussen waarden.
Nulpunt is arbitrair (geen absoluut nulpunt).
Voorbeelden:
Temperatuur in graden Celsius of Fahrenheit (bijvoorbeeld: 20°C,
30°C, en 40°C; het verschil is steeds 10°C, maar 0°C betekent niet
"geen temperatuur").
Jaartelling: 1000 na Chr., 1500 na Chr., 2000 na Chr.
, Belangrijk verschil: Je kunt optellen en aftrekken, maar verhoudingen
(bijvoorbeeld "twee keer zo warm") zijn niet logisch vanwege het arbitraire
nulpunt.
4. Ratio = numerieke variabele
Definitie: Gegevens hebben een volgorde, gelijke intervallen, en een
absoluut nulpunt dat "afwezigheid van de waarde" betekent. Hierdoor
zijn verhoudingen mogelijk.
Eigenschappen:
Gelijke intervallen tussen waarden.
Absoluut nulpunt.
Voorbeelden:
Lengte in centimeters (bijvoorbeeld: 0 cm betekent geen lengte, en
20 cm is twee keer zo lang als 10 cm).
Gewicht in kilogram (0 kg betekent geen gewicht).
Inkomsten: €0 betekent geen inkomen, en €2000 is twee keer zoveel
als €1000.
Belangrijk verschil: Verhoudingen zijn logisch omdat er een absoluut
nulpunt is.
Bloeddruk kan je meten in cm kwik (ratio) maar je kan ook zeggen: te
hoge, te lagen middelmatige druk (ordinaal).
Soorten variabelen
Discrete variabele
Je kan het tellen/ curven
Bv. Het aantal kinderen in een gezin. Dit is discreet aftelbaar. Je kan
geen 2.3 kinderen hebben in een gezin.
Continue variabele
Variabel die continu kan variëren. Tussen 2 waarden zitten oneindig
veel waarnemingen.
Vb. Lichaamsgewicht. Je hebt iemand van 70 kg en iemand van 71
kg. Daartussen zitten heel veel mogelijkheid.