Wiskunde
Statistiek
Onderverdeling binnen de statistiek
Deductieve/beschrijvende statistiek: Verzamelt gegevens en beschrijft de
toestand door die gegevens te ordenen in tabellen, te verwerken, samen te
vatten en grafisch voor te stellen.
Inductieve/inferentiële statistiek: Altijd een steekproef uit de populatie. De
centrale vraag is
telkens: welke uitspraak kunnen we nu doen over de populatie? Onder deze
categorie
valt ook de “verklarende statistiek”. Ze maakt gebruik van kansrekening.
De populatie: Groep mensen of objecten waarvan we het kenmerk willen
onderzoeken (meestal ondoenbaar of onmogelijk)
De steekproef: Gedeelte van de populatie dat we onderwerpen aan een
onderzoek.
1. Aselecte steekproef: iedere persoon dezelfde kans om geselecteerd te
worden.
2. Selecte steekproef: de onderzoeker bepaald of iemand in de steekproef
terecht komt.
Problemen bij het samenstellen van een representatieve steekproef
1. Opportunistische steekproeven zijn niet representatief omdat ze alleen
gemakkelijk bereikbare groepen bevragen, zoals leerlingen uit één school voor
een onderzoek over heel Vlaanderen.
2. Vrijwillige respons leidt vaak tot scheve resultaten. Mensen met sterke
meningen reageren vaker dan neutrale personen. Ook non-respons is een
groot probleem in moderne statistiek.
Voorbeeld: De conclusie dat 75% tegen is op basis van slechts 80
respondenten (op 1000) is misleidend, want:
De respons is laag.
De deelnemers zijn mogelijk bevooroordeeld.
3. De manier van gegevensverzameling beïnvloedt de representativiteit. Een
online enquête trekt een ander publiek dan een telefonische, professioneel
uitgevoerde enquête.
De telefonische enquête van De Morgen is representatiever omdat ze werkt
met een zorgvuldig gekozen steekproef.
4. De context van de enquête beïnvloedt de eerlijkheid van antwoorden.
Een politieagent in uniform die vraagt naar vertrouwen in de politie, kan
sociaal wenselijke antwoorden uitlokken.
5. Vragentechniek is cruciaal: suggestieve of onduidelijke vragen sturen het
antwoord.
, Vraag a geeft eerder steun aan verhoging, vraag b eerder weerstand.
Een neutrale formulering zou zijn: “Bent u voorstander van een prijsverhoging
voor het middageten om de kwaliteit te verbeteren?”
Variabelen
Frequentietabel
Wanneer er veel gegevens verzameld zijn bij een onderzoek, is het belangrijk
deze overzichtelijk te presenteren, bijvoorbeeld in een tabel of grafiek. Dit helpt
om de resultaten duidelijk te maken, ook voor mensen die niet aan het onderzoek
deelnamen.
Frequenties bij kwalitatieve gegevens
Bij een enquête naar stemvoorkeuren onder 250 mensen in een gemeente
werden vijf partijen (A t.e.m. E) als antwoordmogelijkheid aangeboden. De
verzamelde gegevens werden geturfd en verwerkt in een frequentietabel. Hierin
staan:
De partijen (de variabele).
Het aantal stemmen per partij (absolute frequentie), bijvoorbeeld n(A) =
86.
Het percentage stemmen per partij (relatieve frequentie), bijvoorbeeld f(A)
= 34,4%.
Absolute frequentie = aantal keer dat een waarde voorkomt.
Relatieve frequentie = absolute frequentie gedeeld door het totaal aantal
gegevens.
Frequenties bij kwantitatieve gegevens
, Bij kwantitatieve gegevens worden de verschillende waarden van de variabele in
oplopende volgorde gezet. Belangrijke begrippen:
Absolute frequentie (fi): aantal keer dat een waarde voorkomt.
Relatieve frequentie (rfi): fi gedeeld door het totaal aantal gegevens (n).
Cumulatieve absolute frequentie (cfi): som van de frequenties tot en met
een bepaalde waarde.
Cumulatieve relatieve frequentie (crfi): cfi gedeeld door n.
Deze gegevens worden eveneens in een frequentietabel geplaatst, eventueel na
turven.
Grafieken
We zagen dat tabellen een belangrijk hulpmiddel kunnen zijn om een
onoverzichtelijke hoeveelheid gegevens te ordenen en toegankelijk te maken
voor de lezer. Een soortgelijke functie heeft de grafische voorstelling. De lezer
kan vaak in één oogopslag vaststellen wat de belangrijkste conclusies zijn die
volgen uit de beschikbare gegevens als we het gedrag van de betrokken
grootheden in tekening brengen.
Dankzij statistische hulpmiddelen en ideeën kunnen wij gegevens onderzoeken
om hun belangrijkste kenmerken te kunnen beschrijven. Dit onderzoek wordt
exploratieve data-analyse genoemd. Net als een verkenner die onbekend
terrein bewandelt, willen we eerst eenvoudigweg beschrijven wat we zien.
De waarden voor een kwalitatieve variabele zijn labels voor de categorieën, zoals
“mannelijk” en “vrouwelijk”. Bij de verdeling van een kwalitatieve variabele
worden de categorieën gerangschikt in een lijst en wordt het aantal of het
percentage elementen weergegeven die in elke categorie vallen.
Algemene aandachtspunten bij het opzetten van een grafiek
1. Geef de grafiek een korte en krachtige titel.
2. Teken de assen van de grafiek.
3. Vermeld langs de assen altijd welke variabelen worden weergegeven en in
welke eenheden.
4. Plaats namen, getallen enz. langs de assen.
5. Zet de afhankelijke variabele altijd langs de y-as.
6. Maak een schaalverdeling met eventueel een scheurlijn als een groot
deel van de schaal niet relevant is.
Staafdiagram
Een staafdiagram is geschikt om absolute hoeveelheden van
verschillende categorieën te vergelijken. De categorieën staan
op de x-as, de hoeveelheden op de y-as.
Aandachtspunten
Alle staven even breed.
Statistiek
Onderverdeling binnen de statistiek
Deductieve/beschrijvende statistiek: Verzamelt gegevens en beschrijft de
toestand door die gegevens te ordenen in tabellen, te verwerken, samen te
vatten en grafisch voor te stellen.
Inductieve/inferentiële statistiek: Altijd een steekproef uit de populatie. De
centrale vraag is
telkens: welke uitspraak kunnen we nu doen over de populatie? Onder deze
categorie
valt ook de “verklarende statistiek”. Ze maakt gebruik van kansrekening.
De populatie: Groep mensen of objecten waarvan we het kenmerk willen
onderzoeken (meestal ondoenbaar of onmogelijk)
De steekproef: Gedeelte van de populatie dat we onderwerpen aan een
onderzoek.
1. Aselecte steekproef: iedere persoon dezelfde kans om geselecteerd te
worden.
2. Selecte steekproef: de onderzoeker bepaald of iemand in de steekproef
terecht komt.
Problemen bij het samenstellen van een representatieve steekproef
1. Opportunistische steekproeven zijn niet representatief omdat ze alleen
gemakkelijk bereikbare groepen bevragen, zoals leerlingen uit één school voor
een onderzoek over heel Vlaanderen.
2. Vrijwillige respons leidt vaak tot scheve resultaten. Mensen met sterke
meningen reageren vaker dan neutrale personen. Ook non-respons is een
groot probleem in moderne statistiek.
Voorbeeld: De conclusie dat 75% tegen is op basis van slechts 80
respondenten (op 1000) is misleidend, want:
De respons is laag.
De deelnemers zijn mogelijk bevooroordeeld.
3. De manier van gegevensverzameling beïnvloedt de representativiteit. Een
online enquête trekt een ander publiek dan een telefonische, professioneel
uitgevoerde enquête.
De telefonische enquête van De Morgen is representatiever omdat ze werkt
met een zorgvuldig gekozen steekproef.
4. De context van de enquête beïnvloedt de eerlijkheid van antwoorden.
Een politieagent in uniform die vraagt naar vertrouwen in de politie, kan
sociaal wenselijke antwoorden uitlokken.
5. Vragentechniek is cruciaal: suggestieve of onduidelijke vragen sturen het
antwoord.
, Vraag a geeft eerder steun aan verhoging, vraag b eerder weerstand.
Een neutrale formulering zou zijn: “Bent u voorstander van een prijsverhoging
voor het middageten om de kwaliteit te verbeteren?”
Variabelen
Frequentietabel
Wanneer er veel gegevens verzameld zijn bij een onderzoek, is het belangrijk
deze overzichtelijk te presenteren, bijvoorbeeld in een tabel of grafiek. Dit helpt
om de resultaten duidelijk te maken, ook voor mensen die niet aan het onderzoek
deelnamen.
Frequenties bij kwalitatieve gegevens
Bij een enquête naar stemvoorkeuren onder 250 mensen in een gemeente
werden vijf partijen (A t.e.m. E) als antwoordmogelijkheid aangeboden. De
verzamelde gegevens werden geturfd en verwerkt in een frequentietabel. Hierin
staan:
De partijen (de variabele).
Het aantal stemmen per partij (absolute frequentie), bijvoorbeeld n(A) =
86.
Het percentage stemmen per partij (relatieve frequentie), bijvoorbeeld f(A)
= 34,4%.
Absolute frequentie = aantal keer dat een waarde voorkomt.
Relatieve frequentie = absolute frequentie gedeeld door het totaal aantal
gegevens.
Frequenties bij kwantitatieve gegevens
, Bij kwantitatieve gegevens worden de verschillende waarden van de variabele in
oplopende volgorde gezet. Belangrijke begrippen:
Absolute frequentie (fi): aantal keer dat een waarde voorkomt.
Relatieve frequentie (rfi): fi gedeeld door het totaal aantal gegevens (n).
Cumulatieve absolute frequentie (cfi): som van de frequenties tot en met
een bepaalde waarde.
Cumulatieve relatieve frequentie (crfi): cfi gedeeld door n.
Deze gegevens worden eveneens in een frequentietabel geplaatst, eventueel na
turven.
Grafieken
We zagen dat tabellen een belangrijk hulpmiddel kunnen zijn om een
onoverzichtelijke hoeveelheid gegevens te ordenen en toegankelijk te maken
voor de lezer. Een soortgelijke functie heeft de grafische voorstelling. De lezer
kan vaak in één oogopslag vaststellen wat de belangrijkste conclusies zijn die
volgen uit de beschikbare gegevens als we het gedrag van de betrokken
grootheden in tekening brengen.
Dankzij statistische hulpmiddelen en ideeën kunnen wij gegevens onderzoeken
om hun belangrijkste kenmerken te kunnen beschrijven. Dit onderzoek wordt
exploratieve data-analyse genoemd. Net als een verkenner die onbekend
terrein bewandelt, willen we eerst eenvoudigweg beschrijven wat we zien.
De waarden voor een kwalitatieve variabele zijn labels voor de categorieën, zoals
“mannelijk” en “vrouwelijk”. Bij de verdeling van een kwalitatieve variabele
worden de categorieën gerangschikt in een lijst en wordt het aantal of het
percentage elementen weergegeven die in elke categorie vallen.
Algemene aandachtspunten bij het opzetten van een grafiek
1. Geef de grafiek een korte en krachtige titel.
2. Teken de assen van de grafiek.
3. Vermeld langs de assen altijd welke variabelen worden weergegeven en in
welke eenheden.
4. Plaats namen, getallen enz. langs de assen.
5. Zet de afhankelijke variabele altijd langs de y-as.
6. Maak een schaalverdeling met eventueel een scheurlijn als een groot
deel van de schaal niet relevant is.
Staafdiagram
Een staafdiagram is geschikt om absolute hoeveelheden van
verschillende categorieën te vergelijken. De categorieën staan
op de x-as, de hoeveelheden op de y-as.
Aandachtspunten
Alle staven even breed.