Statistiek 2
Tentamen:
- 30 meerkeuzevragen (ongeveer 20 goed voor een voldoende)
- 1/3 rekenen, 1/3 kennis, 1/3 inzicht
- Inhoud week 1 t/m 6 evenredig vertegenwoordigd.
- 2/3 vragen van de canvastoetsen komen in het echte tentamen
,Algemene info toetsen
Univariaat= 1 variabele
Bivariaat = 2 variabelen
Multivariaat = meer dan 2 variabelen.
Categorisch (proportie) en kwantitatief (gemiddelde)
Bivariate relatie tussen twee categorische variabelen: Chi kwadraat toets.
➔ Je kan ook logistische regressie gebruiken. Voorspeller kan elk meetniveau hebben. Uitkomst
is dichotoom
,Week 1
Hoorcollege 1
Statistiek: (inductie) gegeven bepaalde steekproefuitkomst: wat kunnen we zeggen over populatie?
‘’Statistiek bestaat uit een lichaam van methodes voor het verzamelen en analyseren van data’’
3 fasen van statistiek:
- Design: Verzamelen van data over subjecten (meestal in steekproef)
- Beschrijvende statistiek (samenvatten info in de data)
- Toetsende statistiek (inferentie): voorspellingen over de populatie parameters, met behulp
van steekproefstatistieken.
Kwaliteit van inferentie hangt af van de mate waarin de steekproef de populatie weerspiegelt.
Onzekerheid= toeval of bias. Biases:
- Steekproeffout (sampling error=betrouwbaarheidsprobleem): toevallige
steekproefverschillen
- Steekproefvertekening (sampling bias): selectieve werving, sommige leden hebben meer
kans om opgenomen te worden in steekproef.
- Selectieve respons (non-response bias): selectieve deelname, door reden (om niet mee te
doen) vertekening uitkomst
- Meetfout (response bias): incorrecte antwoorden door gevoelige vragen bijv.
Ideaal: “Een aselecte steekproef van voldoende omvang die informatie (data) oplevert over iedereen
die benaderd is, met correcte responses voor alle subjecten op alle items.”
Variabelen: variëren van persoon tot persoon, min. 2 verschillende antwoorden.
Meetniveaus (moet je eerst naar kijken voordat je analyse bepaalt):
- Categorisch – Discreet
o Nominaal: ongeordende categorieën
o Ordinaal: geordende categorieën
- Kwantitatief – Discreet of continu (meestal continu)
o Interval: Ordening met gelijke afstanden tussen opeenvolgende waarden
o Ratio: Ordening met gelijke afstanden EN absoluut nulpunt.
Beschrijvende statistiek (samenvatten data=afhankelijk meetniveau):
- Dmv tabellen/figuren
- Samenvatten per variabele (Verdeling)
- Samenvatten van meerdere variabelen (samenhang)
Categorische data beschrijven
- Frequenties, proporties/percentages
, - p-waarde/significantieniveau =een maat voor de kans dat de nulhypothese ten
onrechte is verworpen.
- Frequentieverdeling, grafiek=staafdiagram, taartdiagram. Centrummaat=modus
Kwantitatieve data beschrijven:
- Frequenties, histogrammen (intervallen, balkjes aan elkaar), stam-en-blad, boxplot
- Centrummaten= Gemiddelde, mediaan en modus, Spreidingsmaten: SD, variantie, Q1-Q3,
positie: z-score, percentiel, min/max, mediaan
Voor beschrijven kwantitatieve data is van belang:
- Vorm: verdeling van waarden (normaal, scheef naar links/rechts,
dalparabool: vaak bij polarisatie, bijv. abortus (iedereen is voor of tegen))
- Centrum: typische waarde (gemiddelde (meest gebruikt: scores in evenwicht),
mediaan, modus (kijken we niet vaak naar bij continue data)). Welke is het meest
informatief? Rechts: modussen.
- Spreiding: Variatie waarden (Variantie, Deviatie (yi-M), Standaardeviatie
(Verschil tov Gemiddelde. Grotere range=grotere SD), range, min/max,
kwadratensommen, bereik/range, Interkwartielafstand etc.)
SD zegt wat over spreiding rond
gemiddelde.
Blauw heeft hier een grotere SD dan roze
ondanks zelfde range.
- Positie: Locatie in verdeling
o Kwartielen (data in 4 delen), Interkwartielafstand (IQR: Q1-
Q3=middelste 50% scores).
o Outlier: Als score 1.5 x IQR boven/onder 3e/1e kwartiel valt.
➔ Zie je in boxplot met MEDIAAN (niet M), kwartielen,
min/max en outliers)
o Z-score: Afwijking van gemiddelde in standaard deviaties (1SD=z=1). Nuttig door
empirische regel bij normaalverdeling.
Empirische regel: →
Exacte normaalverdeling niet nodig, maar moet
normaalverdeling benaderen. Je kan z-waarde in z-tabel
opzoeken om kans op score y of hoger te bepalen.
Bijv. M=115, SD=10. Y=117. Z= (117-115)/10 = 0.2. → tabel:
=58% heeft lager, 42% heeft hoger of gelijk aan
jouw score.
Je kan ook een percentage (rechteroverschrijdingskans)
opzoeken in z-tabel. Als je dan y wil berekenen bij het
percentage: y = M + ZxSD
Kansverdelingen