Beschrijvende statistiek: het samenvattend beschrijven van de kenmerken van een groep
onderzoekseenheden.
- Onderzoekseenheden: over wie je een uitspraak doet.
- Variabelen: Kenmerken in het onderzoek zoals geslacht en leeftijd.
- X is onafhankelijk, Y is afhankelijk symmetrisch/asymmetrisch.
Inferentiële statistiek: schattingen doen over populatiekenmerken op basis van
steekproefgegevens.
Waarde of value van de variabele: sekse
1= vrouw
Respnr V1 V2 V3
1 19 1 2
2 20 1 0
3 19 2 0
V1 is de variabele waarin de leeftijd van de respondent staat
- Datamatrix: een spreadsheet waarin per onderzoekseenheid alle kenmerken als
afzonderlijke variabelen worden beschreven.
- Frequentieverdeling: uitspraak doen over de percentuele verdeling van de
onderzoekseenheden over de waarde van één variabele frequentietabel
- Kruistabellen: je kijkt naar de waarden van twee verschillende variabelen tegelijkertijd
percenteren op de kolommen.
Categorisch (niet mee rekenen):
1. Nominaal: classificatie geslacht, beroep, religie, woonplaats.
2. Ordinaal: classificatie en rangorde opleiding, helemaal mee eens tot helemaal mee
oneens.
Numeriek (wel mee rekenen):
1. Interval: classificatie, rangorde en ‘vaste’ meeteenheid inkomen, temperatuur de
afstanden zijn even groot.
2. Ratio: classificatie, rangorde, ‘vaste’ meeteenheid en absoluut nulpunt leeftijd,
gewicht en facebookvrienden.
- Univariate analyse: uitspraak over één variabele hoeveel uur per dag maken
ouderen gebruik van sociale media?
- Bivariate analyse: twee variabelen met elkaar vergelijken vrouwen kijken vaker
naar het journaal dan mannen.
- Multivariate analyse: één afhankelijke variabele, meerdere onafhankelijke
Hoogopgeleide vrouwen kijken vaker naar het journaal dan laagopgeleide mannen.
Modus (waarde die het vaakst voorkomt) Nominaal, Ordinaal, Interval en Ratio
Mediaan (50% (of hoger) grens) Ordinaal, Interval en Ratio
Gemiddelde Interval en Ratio
, Week 2: Hoofdstuk 3 en 4.1-4.3
Spreiding: hoe sterk waarden zich concentreren: dicht bij elkaar of juist erg verdeeld?
- Nominaal: indicatie van de spreiding is de variatieratio aandeel van
onderzoekseenheden aangeven dat niet in de modale categorie valt.
- Ordinaal: indicatie van de spreiding is de range het verschil tussen de hoogste en
laagste waarde van de variabele. Je kunt vanaf dit niveau meer zeggen, omdat er
rangordening is. Informatie over kwartielen geeft een indruk van spreiding.
Q2 is de mediaan = 50% grens
Het verschil tussen Q3 – Q1 = interkwartielafstand (minimaal interval) geeft spreiding aan.
- Standaarddeviatie = de wortel uit variantie (altijd op 0), kwadratensom in variatie
- Z-scores = de gestandaardiseerde scores van een variabele (interval/ratio), van het
gemiddelde van een variabele in de steekproef.
Verdeling symmetrisch = normale verdeling klokvormig figuur = kromlijnig verband. Je
kunt de kans berekenen dat de bepaalde waarden voorkomen. Empirische regel (verdeling):
2,5%, 13,5% en 34%. uni modaal en symmetrisch
- Extreme waarden: vijf standaarddeviaties onder of boven het gemiddelde.
- Outlier (uitbijter): drie standaarddeviaties onder of boven het gemiddelde.
- Zorgen er beide voor dat de verdeling scheef wordt.
Scheve verdeling: extreme waarden t.o.v. modus naar links of naar rechts = skewness.
- Platte/spitse verdeling= hoge/lage kurtosis, hoog is spits laag is plat.
Week 3, BB Hoofdstuk 1 – 4
Inferentiële statistiek: statistisch generaliseren, inductieve statistiek. De steekproef moet een
goede afspiegeling zijn van de betreffende populatie.
- Aselecte steekproef (sample) = in principe representatief, gebaseerd op toeval.
- Populatie = de verzameling van alle onderzoekseenheden, een reeks scores
(metingen) die bij elkaar horen in een analyse (statistische populatie).
Statistisch model: uitspraak doen over een bepaald vraagstuk
- Hoe beter het model pas, hoe beter je een voorspelling kunt doen a.d.h.v. data = fit of
the model.
- Samengesteld a.d.h.v. variabelen (gemeten) en parameters: geschat en er wordt
vanuit gegaan dat het informatie is over de werkelijke relatie tussen variabele en het
model gemiddelde, mediaan, modus, associatiematen, correlatie- en
regresssiecoëfficiënten.
- Hoe kleiner de deviatie (fout), hoe beter het model past.
- Kansverdeling van verwachte waarden kansen op verschillende
steekproefresultaten, meest waarschijnlijke uitkomst en verwachte waarde in de
populatie als de schatter zuiver is. legt relatie tussen populatie en steekproef.
- Continu verdeelde kans variabelen: elke mogelijke waarde kan in de kansverdeling
gevonden worden.
- Discrete kans variabelen: beperkt aantal uitkomsten zoals geslacht, zit niets tussen.
Het steekproefgemiddelde is een zuivere schatter van de populatieparameter µ.
Centrale limietstelling = N: 100 (30 mag ook).