Methode & Technieken TT1
Hoorcolleges Statistiek– Els Veldhuizen
HC 1 – Structuur van gegevens
Onderzoek leidt tot beleidsbeslissingen aan de hand van onderzoeksresultaten.
Goed onderzoek heeft:
» Goede opzet van het onderzoek
» Juiste dataverzameling
» Juist gebruik van statistische procedures
» Juiste interpretatie van statistische uitkomsten.
Drie soorten data:
» Micro data = heel gedetailleerde data op laag schaalniveau.
» Open data = data die is gepubliceerd en vrij mag worden gebruikt; is data van derden die
beschikbaar is gesteld.
» Big data = data in grote hoeveelheden via nieuwe bronnen.
Twee soorten statistiek:
» Beschrijvende statistiek; gegevens worden overzichtelijk samengevat in grafieken, tabellen,
samenvattende maten en samenhangsmaten.
» Generaliserende statistiek: conclusies trekken op basis van steekproeven.
Gegevens kunnen gestructureerd worden in datamatrixen, een aantal
definities ten behoeve daarvan:
Onderzoekseenheden = ‘dingen’ (eenheden) waarvan je iets
wilt weten.
Variabelen = ‘dingen’ die je van de eenheden wilt weten.
Waarden = scores van de eenheden op de variabelen.
Variabelen hebben een schaalniveau:
» Nominaal = waarden zijn wel te onderscheiden maar hebben geen volgorde. Bijv. talen
» Ordinaal = waarden hebben een ondubbelzinnige volgorde. Bijv. negatief, neutraal, positief
» Interval = waarden liggen op een vaste plek uit elkaar en hebben geen echt nulpunt. Bijv.
temperatuur.
» Ratio/quotient = waarden kunnen gedeeld/vermenigvuldigd worden. Bijv. salaris
» (Dichotoom) = als er twee mogelijke waarden zijn bij nominaal, kunnen deze gecodeerd
worden met 0 en 1 waardoor ze hetzelfde schaalniveau krijgen als ratio. Bijv. ja of nee.
» (Geclassificeerd ratio) = Ordinaal. Is wanneer er klassen zijn opgezet voor ratiowaarden.
Dit schaalniveau is bepalend voor de analysemogelijkheden. Hoger schaalniveau = meer mogelijk.
Waarden in een datamatrix moeten zijn:
» Uitputtend = alle mogelijkheden zijn gedekt.
» Uitsluitend = mogelijkheden mogen niet overlappen.
Zo kan iedereen precies één antwoord geven.
, HC 2 – Beschrijvende statistiek
Ééndimensionale statistiek gaat over één variabele.
Frequentieverdeling = een tabel voor ééndimensionale statistiek, is een overzicht van alle waarden.
Is belangrijk dat missings (: missende waarden) hierin zichtbaar zijn.
Vaak staat er een cumulatief bij: dat is het optellen van alle waarden die dat niveau, of een niveau
eronder hebben. Hiervoor is minstens een ordinaal schaalniveau nodig.
Grafische weergaven van waarden is mogelijk door een:
» Cirkeldiagram; in principe nominale, maar ook wel eens ordinale schaal.
» Staafdiagram; vooral nominaal en ordinaal.
» Histogram; interval en ratio.
Soorten maten om mee te analyseren.
(1) Centrale tendentie
» Modus (Mo) = waarde die het vaakst voorkomt
» Mediaan (Md) = waarde die middelste is als waarden worden geordend (niet voor nominaal).
helft van de eenheden heeft een waarde onder de mediaan, andere helft erboven, gerelateerd:
- 1e en 3e kwartiel (25% onder, 75% boven en andersom).
- 1e…4e…8e… deciel (10% onder, 90% boven et cetera).
- 7e…23e…81e… percentiel (7% onder, 93% boven et cetera).
(Bij ordinaal, waarde die bij cumulatief 50% overschrijdt).
» Gemiddelde ( x ) = som van waarden/totale aantal eenheden (interval, ratio).
(2) Spreidingsmaten
Spreidingsmaten hebben te maken met de homo- of heterogeniteit van de waarden.
>> Nominaal: grootste heterogeniteit als mensen gelijkmatig over waarden zijn verdeeld. Te meten:
r
1 2
Herfindahl-index = ⋅ f 1 (kwadrateer frequenties, tel ze op en deel door aantal eenheden in
2 ∑
n i=1
kwadraat).
» Hoe hoger, hoe homogener
Diversiteitindex = 1 – Herfindahl.
» Hoe hoger, hoe heterogener
>> Ratio, interval: grootste heterogeniteit als afstand tussen waarden groot is. Te meten:
Kwartielafstand = Q3 – Q1 (als de mediaan de maat van centrale tendentie is).
» Hoe hoger, hoe heterogener
n
Standaardafwijking =
√ ∑ ( xi −x )2
i=1
n
(als gemiddelde de maat van centrale tendentie is).
Wordt gemeten in dezelfde dimensie als het gegeven, is dus niet te vergelijken.
» Hoe hoger, hoe heterogener
Hoorcolleges Statistiek– Els Veldhuizen
HC 1 – Structuur van gegevens
Onderzoek leidt tot beleidsbeslissingen aan de hand van onderzoeksresultaten.
Goed onderzoek heeft:
» Goede opzet van het onderzoek
» Juiste dataverzameling
» Juist gebruik van statistische procedures
» Juiste interpretatie van statistische uitkomsten.
Drie soorten data:
» Micro data = heel gedetailleerde data op laag schaalniveau.
» Open data = data die is gepubliceerd en vrij mag worden gebruikt; is data van derden die
beschikbaar is gesteld.
» Big data = data in grote hoeveelheden via nieuwe bronnen.
Twee soorten statistiek:
» Beschrijvende statistiek; gegevens worden overzichtelijk samengevat in grafieken, tabellen,
samenvattende maten en samenhangsmaten.
» Generaliserende statistiek: conclusies trekken op basis van steekproeven.
Gegevens kunnen gestructureerd worden in datamatrixen, een aantal
definities ten behoeve daarvan:
Onderzoekseenheden = ‘dingen’ (eenheden) waarvan je iets
wilt weten.
Variabelen = ‘dingen’ die je van de eenheden wilt weten.
Waarden = scores van de eenheden op de variabelen.
Variabelen hebben een schaalniveau:
» Nominaal = waarden zijn wel te onderscheiden maar hebben geen volgorde. Bijv. talen
» Ordinaal = waarden hebben een ondubbelzinnige volgorde. Bijv. negatief, neutraal, positief
» Interval = waarden liggen op een vaste plek uit elkaar en hebben geen echt nulpunt. Bijv.
temperatuur.
» Ratio/quotient = waarden kunnen gedeeld/vermenigvuldigd worden. Bijv. salaris
» (Dichotoom) = als er twee mogelijke waarden zijn bij nominaal, kunnen deze gecodeerd
worden met 0 en 1 waardoor ze hetzelfde schaalniveau krijgen als ratio. Bijv. ja of nee.
» (Geclassificeerd ratio) = Ordinaal. Is wanneer er klassen zijn opgezet voor ratiowaarden.
Dit schaalniveau is bepalend voor de analysemogelijkheden. Hoger schaalniveau = meer mogelijk.
Waarden in een datamatrix moeten zijn:
» Uitputtend = alle mogelijkheden zijn gedekt.
» Uitsluitend = mogelijkheden mogen niet overlappen.
Zo kan iedereen precies één antwoord geven.
, HC 2 – Beschrijvende statistiek
Ééndimensionale statistiek gaat over één variabele.
Frequentieverdeling = een tabel voor ééndimensionale statistiek, is een overzicht van alle waarden.
Is belangrijk dat missings (: missende waarden) hierin zichtbaar zijn.
Vaak staat er een cumulatief bij: dat is het optellen van alle waarden die dat niveau, of een niveau
eronder hebben. Hiervoor is minstens een ordinaal schaalniveau nodig.
Grafische weergaven van waarden is mogelijk door een:
» Cirkeldiagram; in principe nominale, maar ook wel eens ordinale schaal.
» Staafdiagram; vooral nominaal en ordinaal.
» Histogram; interval en ratio.
Soorten maten om mee te analyseren.
(1) Centrale tendentie
» Modus (Mo) = waarde die het vaakst voorkomt
» Mediaan (Md) = waarde die middelste is als waarden worden geordend (niet voor nominaal).
helft van de eenheden heeft een waarde onder de mediaan, andere helft erboven, gerelateerd:
- 1e en 3e kwartiel (25% onder, 75% boven en andersom).
- 1e…4e…8e… deciel (10% onder, 90% boven et cetera).
- 7e…23e…81e… percentiel (7% onder, 93% boven et cetera).
(Bij ordinaal, waarde die bij cumulatief 50% overschrijdt).
» Gemiddelde ( x ) = som van waarden/totale aantal eenheden (interval, ratio).
(2) Spreidingsmaten
Spreidingsmaten hebben te maken met de homo- of heterogeniteit van de waarden.
>> Nominaal: grootste heterogeniteit als mensen gelijkmatig over waarden zijn verdeeld. Te meten:
r
1 2
Herfindahl-index = ⋅ f 1 (kwadrateer frequenties, tel ze op en deel door aantal eenheden in
2 ∑
n i=1
kwadraat).
» Hoe hoger, hoe homogener
Diversiteitindex = 1 – Herfindahl.
» Hoe hoger, hoe heterogener
>> Ratio, interval: grootste heterogeniteit als afstand tussen waarden groot is. Te meten:
Kwartielafstand = Q3 – Q1 (als de mediaan de maat van centrale tendentie is).
» Hoe hoger, hoe heterogener
n
Standaardafwijking =
√ ∑ ( xi −x )2
i=1
n
(als gemiddelde de maat van centrale tendentie is).
Wordt gemeten in dezelfde dimensie als het gegeven, is dus niet te vergelijken.
» Hoe hoger, hoe heterogener