2023-2024
,Hoofdstuk 1 – Inleiding inductieve statistiek
• Waarom data analyse?
o Vraag = waarom krijgen we nu statistiek?
o Fouten media: Als je gaat kijken in de media dan zie je dat er op heel wat krantenkoppen waar
ergens data analyse geassocieerd is. Obv data maken ze causale verbanden (die niet waar zijn)
→ grote impact op functioneren
▪ Verkeerd begrip/analyse van de statistiek wordt dan wereld uitgezonden.
▪ Enorme impact op de hele wereld → echt mee oppassen
▪ Voorbeeld Covid: Een periode waar er heel wat verkeerde informatie de wereld is
ingestuurd. Die worden zodanig gefilterd/veranderd doordat het wordt doorverteld van
de ene persoon naar de andere persoon → enorme impact op de wereldgezondheid →
impact van het verkeerdelijk interpreteren van data
o Om tot wetenschap te komen moeten we wet methodes gebruiken en data verzamelen (= data
verzamelen is al een kunst op zich (ethische commissies die heel streng zijn) en eens je je data
hebt kan je al een goed stuk vooruit = die stappen gaan we vandaag bekijken)
▪ Daar spelen we als psycholoog een belangrijke rol in
▪ HRM psycholoog (human recerses psycholoog) die een bevraging gaan doen bij zijn
werknemers omtrent jobtevredenheid. Hoe ga je die data analyseren?
o Data-analyse = noodzakelijk voor psychologen → het helpt om:
▪ Data te organiseren (grafieken,…): neemt veel tijd in beslag. Heel vaak krijg je een
rommelboel binnen en dan moet jij dat gaan organiseren. Er gaat altijd wel ergens missing
data zijn, personen die je vragenlijst niet juist hebben ingevult, ... → opkuisen voor je er
iets mee kan doen.
▪ Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten): kijk ALTIJD naar
de data in termen van grafieken want als je enkel naar je tabellen gaat kijken ga je bepaalde
dingen niet zien zoals outliners die je niet gezien had op de grafiek !!
• Wanneer je data vorm geeft gebruik steeds visuele methodes (grafieken,..). Vaak niet nodig om naar
statistiek te kijken als je grafiek grondig kan analyseren (grafiek vertelt enorm veel dus is een belangrijke
stap op je data te beschrijven)
o Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve statistiek,
verklaren): meeste statistische testen gaan een uitkomst geven, data is nooit fout, interpretatie
van je data vaak fout!! (werk als wetenschapper).
• Je kan perfect een anova uitvoeren over d erugnummers van voetballers en je kan uitkomen dat er een
bepaalde rugnummer hoger is, maar dat wil niets zeggen natuurlijk. Het is de interpretatie die je nodig
hebt.
o Theorieën te verifiëren en aan te passen: als je juist interpreteerd en uitspraken maakt = cirkel
begint weer opnieuw, genereert nieuwe vragen en hypothese.
2
,Testen laten toe om te kijken of gemiddelde uit de steekproef significant verschil van populatie gemiddelde
• Inductieve statistiek: je neemt een aselecte steekproef uit een populatie. Daarna pas je hier
beschrijvende statistiek op toe, waardoor we uitspraken kunnen doen over deze groep. Achteraf gaan
we inductieve statistiek toepassen en uitspraken proberen doen over de hele populatie.
o Trekken steekproef uit populatie (pop is niet mogelijk om helemaal te gebruiken)
o Obv steekproef uitspraak doen over de populatie
▪ In heel sommige gevallen kan je de hele populatie testen (komt zelfden voor). Dat heeft
impact op je statistieken. bijvoorbeeld alle austronauten die op de maan zijn geweest, daar
kan je een hele populatie nemen aangezien dat misschien maar 30 mensen zijn
o Begrippen
▪ Theorie → Hypothese → Steekproef → Steekproefgrootheden
• Je hebt je over een bepaald fenomeen geïnformeerd door wetenschappelijke literatuur te lezen → daar
hypotheses en onderzoeksvragen gaan stellen, deze gaan verifiëren door een steekproef te trekken en
daar steekproefgrootheden te gaan afleiden
o Steekproefgrootheid (statistiek, stat. grootheid): maat gebaseerd op de gegevens van de
steekproef (vb.: rekenkundig gemiddelde, proportie,…). Als je dit doet kan je oneindig aantal
steekproeven trekken, waardoor je afwijkingen zal hebben en niet altijd hetzelfde zal uitkomen.
3
, • Stel je trekt 100.000 random steekproeven en berekend er het gemiddelde van dan ga je zien dat die
steekproefgrootheden ook een verdeling hebben
o Stel: random steekproef 1 en we berekenen S1, random steekproef 2 (zelfde n) en we
berekenen S2, etc. tot Sn
o X
• S1, S2, S3, S4, …, Sn
o Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling → steekproevenverdeling
= De verdeling van deze steekproefgrootheden
o Gaan contextualiseren = Niet alles zomaar aannemen dat alles wat je hebt gevonden ook waar
is, alles nachecken van mogelijke alternatieve hypotheses → kwalitatieve chek doen → in de
context van theorie bekijken → hoe komt het dat ik daar nu een zeer sterk afwijkend resultaat
heb? heeft dat te maken met de kwaliteit van mijn data? Heb ik mijn onderzoek niet juist
uitgevoerd? ... Voorzichtig zijn als je resultaten hebt die niet in de lijn liggen met je theoretische
verwachtingen MAAR heb je alles gedaan kan het ook wel zijn dat je iets nieuws hebt gevonden.
o Bootstrap: iets met data doen om een verdeling van grootheden te hebben → vb. als je 100
mensen hebt getest, 50 in elke groep, je haalt er één uit in één groep en steekt die in de andere
groep, en omgekeerd ook = wat doet dat met mijn gemiddelde? → is mijn steekproef stabiel
met 100% van mij data, 90% van mijn data, 80% ...
• Met Kleine steekproeven blijven resultaten stabiel?
o Steekproefverdeling VERSUS steekproeven verdeling (termen liggen dicht bij elkaar MAAR groot
verschil)
▪ Een steekproefverdeling (sample) is empirisch en gekend, het is een frequentieverdeling.
• Frequentieverdeling van de uitkomsten van de steekproef
• Dit kennen we, zien we, observeren we
▪ Een steekproeven (sampling) is een kansverdeling, hij is theoretisch gekend en kan enkel
benaderd worden.
• Kansverdeling van alle mogelijke waarden die een steekproefgrootheid (voor alle mogelijke
verschillende steekproeven) kan aannemen
• Dit observeren we niet
4