I. Inleiding in de sta-s-ek?
1. Wat is sta)s)ek?
- Sta$s$ek is overal.
- Bv. 3 op de 10 Belgen, weersvoorspellingen, evolu5es doorheen de 5jd, …
1.1. Sta&s&ek als gevaarlijk hulpmiddel
1.2. Sta&s&ek = ?
Betekenis
- Data: gegevens bv. aantal leerlingen
- Bewerkingen op data bv. gemiddelde
- Wetenschap: hoe data te analyseren?
- Sta3s3ek is de wetenschap van het verzamelen, organiseren, presenteren, analyseren en
interpreteren van gegevens of data volgens numerieke logica.
Wat kan je ermee aanvangen?
- Beschrijven: voorstellingen bv. kaart van schoolse vertraging in Antwerpen
o Vereenvoudiging van complexe realiteit
o Meer zicht op eigenschappen van groep
- Verklaren: waarom? bv grafiek roken – longkanker
o Sta$s$sch model: grove vereenvoudiging van de realiteit: beschrijven hoe situa$es in
gemiddelde termen (probalisis$sche termen) werken
o Bepaald fenomeen dat we vastellen in werkelijkheid verklaren
- Voorspellen: toekomst bv. opwarming van de aarde, weersvoorspelling
o Prognoses over wat kan gebeuren
o Niet exact te voorspellen, geen defini$eve voorspellingen => we spreken van kansen
2. Het programma R
Start: PDF-principe!
Data inladen
PakeOen inladen
Func$es inladen
3. Data en de datamatrix
3.1. Wat is data en wat zijn variabelen?
- Wat is data en wat zijn variabelen? + andere woordenschat
o Data = informa$e-eenheden verkregen via observa$e (meten)
o Variabele = geobserveerd kenmerken die variëren bv. geslacht, rich$ng, …
• Hier valt nieuwe informa$e te rapen!
• Voorbeelden: oogkleur, woonplaats van willekeurige groep, …
• Groepering variabelen
1
, Sta$s$ek A
• = kenmerk van een eenheid uit de popula$e dat op één of andere wijze gemeten kan
worden en dat varieert over de eenheden van de popula$e heen.
• Domein = aantal mogelijk gekende waarden, kan oneindig groot zijn
o Constante = als kenmerk slechts 1 waarde aanneemt
o Meten = observeren en daaruit informa$e uithalen en opslaan
• Meetlat om de lengte te meten
• Noteren van haarkleur van mensen
• Informa$e uit rapporten, verslagen, observeren
• Interviews
o Observeren = meten in de breedste betekenis van het woord
• Open/gesloten: al dan niet op voorhand weten van mogelijke waarden
3.2. Variabelen en hun meetniveau
- Categorische variabelen = kwalita3eve
o Meten = indelen volgens hun kenmerk, gelijkwaardige eenheden groeperen
o Spreken van categorieën
o Eventueel CODE-getallen = getallen zonder betekenis (bv. sterren restaurant)
o Ordinale variabelen:
• Antwoordcategorieën met ordening
• Wel totale ordening, geen meeteenheid, geen absoluut nulpunt
• bv. aantal sterren, looncategorie
• Kan je rangschikken
• Niet gekoppeld aan meeteenheid
o Nominale variabelen:
• Antwoordcategorieën zonder ordening en waardeoordeel
• Geen ordening, geen meeteenheid, geen absoluut nulpunt
• bv. geslacht, geboorteland, haarkleur, …
- Numerieke variabelen = kwan3ta3ef
o Meten = indelen volgens kenmerken i.p.v. categorieën => getallen MET betekenis
o Meten = indelen volgens kenmerk i.p.v. categorieën
o geven numerieke info, getallen met betekenis!
o gekoppeld aan gemeten meeteenheid!!!
=> (moet niet wiskundig zijn, kan bv. aantal auto’s zijn)
o Variabelen met ra3oschaal (of ra3ogeschaalde variabelen)
• Wel ordening, wel meeteenheid, wel absoluut nulpunt
• Absoluut nulpunt: als het 0 is, is het er niet bv. gewicht, auto’s…
• Bv. leeaijd, gewicht, aantal auto’s dat voorbij rijdt op een kruispunt, …
o Variabelen met intervalschaal: (of intervalgeschaalde variabelen)
• Kan aangeven hoe groot het verschil (interval) is
• Wel ordening, wel meeteenheid, geen absoluut nulpunt
• Bv. temperatuur
- Meetniveau van variabele bepalen o.b.v. eigenschappen van me3ngen:
o Totale orde
• Rangorde aanduiden tussen elementen
• Meetwaarden zijn samenhangend: verwijzen naar hetzelfde fenomeen
• Meetwaarden zijn transi3ef: rela$e tussen meetwaarden
• Me$ngen zijn assymmetrisch
2
, Sta$s$ek A
• Bv. score op mate van eens zijn met stelling a.d.h.v. 5-puntenschaal
o Meeteenheid
• Als gelijke verschillen in de waarden van de variabele, dezelfde verschillen in intensiteit
van het kenmerk voorstellen => bij numerieke variabelen
• Bv. verschil tussen 3°C en 5°C is iden$ek aan het verschil tussen 12°C en 14°C
o Absoluut nulpunt
• De waarde nul wijst op het ontbreken van het kenmerk, de afwezigheid ervan
Bv. 0 kg = het is er niet!
• Afvragen: wat betekent nul? Nul betekent: het is er niet!
- Van laagste naar hoogste meetniveau: (NOIR)
o Nominale variabelen = armste meetniveau! Geven weinig zin…
o Ordinaal = beetje meer
o Interval niveau = wel gemiddelde kunnen berekenen, geen absoluut nulpunt (verhoudingen
zijn niet zinvol)
o Ra$o = rijkste meetniveau: totale orde, meeteenheid, absoluut nulpunt
SamenvaXend:
- Discrete en con3nue variabelen
o Con3nue: tussen 2 waarden/meetpunten kunnen andere waarden ziOen
Bv. tussen 170 en 180 kan 176, 177, … ziOen
o Discrete: tussen 2 waarden/meetpunten ziOen geen andere waarden
Bv. 2 kinderen of 3 kinderen in een gezin
3.3. De datamatrix
- Sta$s$sche analyse start bij data verzamelen.
- Datamatrix opstellen:
o Stukjes informa$e per respondent weergeven
o Kolommen: variabelen
o Rijen per respondent of case
o Meetwaarden in die rijen
3