Aantekeningen OIMB
Hoorcollege 1, 02-02-2022, Basisbeginselen statistiek, Beschrijvende statistiek
Conceptuele achtergronden
- De cijfers spreken nooit voor zich → ze zijn nooit eenduidig
o Ligt er altijd aan hoe ernaar is gekeken/geïnterpreteerd etc.
- Initiële observatie (iets valt ons op/er is iets opmerkelijk/interessant) → Theorie (wat is er al
bekend) → Hypothese → Dataverzameling → Analyse → Uitspraak (inference, op basis van
deze data kom ik tot deze conclusie)
- Onderzoeksvraag
1. Identificeren van de afhankelijke variabele (wat wil ik verklaren)
2. Bepalen van de mate van spreiding (variantie) → verschillen tussen scores.
Bij veel variantie → veel te verklaren.
3. Op zoek naar factoren die deze spreiding mogelijk kunnen verklaren (mate van geluk, angst
voor misdaad)
4. Modellen opstellen die deze spreiding kunnen wegnemen. Je stelt een model op die al de
spreiding van stap 2 weghaalt → perfecte model = geen spreiding.
Beschrijvende & verklarende statistiek
Omdat je werkt met steekproeven heb je altijd te maken met twijfels. Je moet bewustzijn van deze
onzekerheid.
,Datamatrix
Basis van data-analyse
Je ziet de onderzoekseenheden en de scores op de variabelen. Bevat alleen getallen.
Typen data/gegevens
Kwalitatieve gegevens (categorisch)
- Nominaal meetniveau (geslacht, nationaliteit)
- Ordinaal meetniveau (opleidingsniveau)
Kwantitatieve gegevens (continue)
- Interval meetniveau (IQ; temperatuur)
- Ratio meetniveau (inkomen; leeftijd)
Eigenschappen data
Drie centrale eigenschappen om data te samenvatten. Welke zijn belangrijk.
1. Data heeft de neiging om zich om een bepaald punt te concentreren (centrale tendentie)
2. Spreiding rondom dat centrale punt: groot of juist klein?
3. Hoe ziet die spreiding eruit? Blauw = normaal verdeeld rondom centraal punt. Niet altijd zo.
,Eigenschappen data: centrale tendentie
N = nominaal / O = ordinaal / I = interval / R = ratio
- Modus = de meest voorkomende waarneming, welk getal komt het meest voor in dataset
Bij elk meetniveau bruikbaar.
- Mediaan = middelste waarneming. Alle waarnmeingen ordenen van laag naar hoog, score
middelste persoon is mediaan. Dit kan alleen bij oridinaal, interval, ratio.
- Gemiddelde. Moet hiervoor met data kunnen rekenen, dus bij interval en ratio.
Dit geeft de eerste indruk van de data → zegt nog niks over de spreiding.
Eigenschappen data: variantie/spreiding
Spreiding kan enkel bij meetniveaus vanaf ordinaal. Bijv nominaal-religie → hier is geen spreiding.
Spreiding: Interkwartiel range
, Spreiding: Standaarddeviatie
Gemiddelde en standaarddeviatie
Getal in rode cirkel zal altijd 0 zijn.
Hierdoor worden de deviaties van de
gemiddelden gekwadrateerd. Hierdoor krijg je
wel een betekenisvol getal.
Geeft wel een nadeel: 1600 tweets in het
kwadraat (geen betekenis). Terugrekenen naar
een betekenisvol getal dat je kan interpreteren.
Hoorcollege 1, 02-02-2022, Basisbeginselen statistiek, Beschrijvende statistiek
Conceptuele achtergronden
- De cijfers spreken nooit voor zich → ze zijn nooit eenduidig
o Ligt er altijd aan hoe ernaar is gekeken/geïnterpreteerd etc.
- Initiële observatie (iets valt ons op/er is iets opmerkelijk/interessant) → Theorie (wat is er al
bekend) → Hypothese → Dataverzameling → Analyse → Uitspraak (inference, op basis van
deze data kom ik tot deze conclusie)
- Onderzoeksvraag
1. Identificeren van de afhankelijke variabele (wat wil ik verklaren)
2. Bepalen van de mate van spreiding (variantie) → verschillen tussen scores.
Bij veel variantie → veel te verklaren.
3. Op zoek naar factoren die deze spreiding mogelijk kunnen verklaren (mate van geluk, angst
voor misdaad)
4. Modellen opstellen die deze spreiding kunnen wegnemen. Je stelt een model op die al de
spreiding van stap 2 weghaalt → perfecte model = geen spreiding.
Beschrijvende & verklarende statistiek
Omdat je werkt met steekproeven heb je altijd te maken met twijfels. Je moet bewustzijn van deze
onzekerheid.
,Datamatrix
Basis van data-analyse
Je ziet de onderzoekseenheden en de scores op de variabelen. Bevat alleen getallen.
Typen data/gegevens
Kwalitatieve gegevens (categorisch)
- Nominaal meetniveau (geslacht, nationaliteit)
- Ordinaal meetniveau (opleidingsniveau)
Kwantitatieve gegevens (continue)
- Interval meetniveau (IQ; temperatuur)
- Ratio meetniveau (inkomen; leeftijd)
Eigenschappen data
Drie centrale eigenschappen om data te samenvatten. Welke zijn belangrijk.
1. Data heeft de neiging om zich om een bepaald punt te concentreren (centrale tendentie)
2. Spreiding rondom dat centrale punt: groot of juist klein?
3. Hoe ziet die spreiding eruit? Blauw = normaal verdeeld rondom centraal punt. Niet altijd zo.
,Eigenschappen data: centrale tendentie
N = nominaal / O = ordinaal / I = interval / R = ratio
- Modus = de meest voorkomende waarneming, welk getal komt het meest voor in dataset
Bij elk meetniveau bruikbaar.
- Mediaan = middelste waarneming. Alle waarnmeingen ordenen van laag naar hoog, score
middelste persoon is mediaan. Dit kan alleen bij oridinaal, interval, ratio.
- Gemiddelde. Moet hiervoor met data kunnen rekenen, dus bij interval en ratio.
Dit geeft de eerste indruk van de data → zegt nog niks over de spreiding.
Eigenschappen data: variantie/spreiding
Spreiding kan enkel bij meetniveaus vanaf ordinaal. Bijv nominaal-religie → hier is geen spreiding.
Spreiding: Interkwartiel range
, Spreiding: Standaarddeviatie
Gemiddelde en standaarddeviatie
Getal in rode cirkel zal altijd 0 zijn.
Hierdoor worden de deviaties van de
gemiddelden gekwadrateerd. Hierdoor krijg je
wel een betekenisvol getal.
Geeft wel een nadeel: 1600 tweets in het
kwadraat (geen betekenis). Terugrekenen naar
een betekenisvol getal dat je kan interpreteren.