Dataverwerking: beschrijvende statistiek en kansrekenen
Hoofdstuk 1: gegevens verwerken
1. Inleiding
Een statistisch onderzoek in de beschrijvende statistiek probeert conclusies te maken over een
gehele populatie door het onderzoeken van een steekproef.
– Populatie: de gehele groep van alle te bestuderen elementen. Bijvoorbeeld alle studenten van
de school HoGent.
– Steekproef: een deelverzameling van de populatie, de omvang kan verschillen.
– Variabelen: kenmerken van de populatie die onderzocht worden, bijvoorbeeld leeftijd,
studieresultaten van studenten...
Afhankelijk van hoe representatief de steekproef is, kan een betrouwbaarheidsmaat opgesteld
worden van de steekproef voor de populatie.
2. Steekproef en populatie
Wanneer we dus een populatie willen onderzoeken, kost het onderzoeken van elk element teveel
tijd en geld. Daardoor wordt aan de hand van een steekproefkader een effectieve steekproef
bepaald. De populatie kan bijvoorbeeld elke Vlaamse dierenarts zijn, het steekproefkader is een lijst
met alle Vlaamse dierenartsen, de steekproef is x aantal elementen van het steekproefkader.
Een representatieve steekproef is aselect: elk element van de populatie moet een gelijke kans
hebben om in de steekproef terecht te komen. Indien dit niet het geval is, is dat onzuiver/gebiased.
Een methode om de steekproef aselect te houden is randomisatie: de selectie gebeurt volledig
willekeurig.
Verder moet een steekproef ook betrouwbaar zijn. De omvang ervan bepaalt veel, deze mag niet te
klein zijn, dat geeft onzekere resultaten. Een te grote steekproef brengt onnodige tijd en kosten mee.
We onderscheiden enkele manieren om gegevens over de steekproef te verzamelen:
– Interview: één op één gesprek die goed is om in het begin van het onderzoek in te leiden,
maar ook op het einde om bepaalde zaken uit te diepen. Een groot nadeel is dat het geen
kwantitatieve informatie oplevert en zeer veel tijd kost.
– Focusgroep: homogene groep (bijvoorbeeld enkel werknemers zonder werkgevers) van 7-10
mensen waarmee een groepsgesprek wordt gevoerd. Er ontstaat een discussie die door
elkaar gestimuleerd wordt, waarbij de gespreksleider het gesprek in banen leidt, maar vooral
observeert. Niet te gebruiken bij gevoelige onderwerpen of verbaal zwakke mensen.
– Enquête: meestal gebruikt voor kwantitatief onderzoek op grote schaal. Nadeel is dat er op
bepaalde zaken niet ingegaan kan worden.
– Observatieonderzoek: onderzoeker observeert (zonder in te grijpen in enige vorm!) de
mensen of objecten in hun natuurlijke omgeving. Kost veel tijd en gedachten kan je niet
observeren, maar beste vorm om realiteit te onderzoeken.
– Experiment: toetsen van een hypothese waarbij bijvoorbeeld medicatie wordt getest. Het kan
zeer juiste informatie opleveren maar kan soms onethisch zijn.
→ Non-respons is een zeer groot probleem die resultaten van een onderzoek sterk kan beïnvloeden.
, 3. Variabelen
Variabelen zijn kenmerken of eigenschappen van de elementen van de steekproef, die verschillen
onder de individuen. We onderscheiden verschillende vormen van variabelen:
– Kwalitatieve variabele: geen numerieke waarden, maar aanduidingen of kenmerken zoals
kleuren of rassen
– Kwantitatieve variabele: een numerieke waarde zoals gewicht
➔ Discrete variabele: een afgerond getal geheel getal dat vele waarden kan aannemen zoals
aantal ogen geworpen op dobbelsteen, aantal kinderen in een gezin...
➔ Continue variabele: kan elk waardegetal bereiken binnen de reële getallen of is een
interval waarin het ligt.
We bespreken ook van meetniveaus van deze variabelen. Aan de hand hiervan wordt bepaald op
welke manier we mogen rekenen met de bekomen resultaten.
– Nominale schaal: een kenmerk wordt een willekeurig getal gegeven. Bijvoorbeeld 1 =
groen, 2 = blauw; 3 = zwart. Het is een soort codering die ook steeds vermeld moet worden.
Er kan hier uiteraard niet mee gerekend worden
– Ordinale schaal: ook hier gaat het om het geven van een cijfer aan een bepaald kenmerk,
alleen zijn de nummers wel in een logische volgorde. Zoals het aantal sterren tussen 1-5 of
1= is slecht; 2= goed; 3= uitstekend. In principe mag hier niet mee gerekend worden maar
het is wel mogelijk.
– Intervalschaal: een intervalschaal kent geen eenduidig nulpunt. Het gaat bijvoorbeeld om
uur intervallen waarbij 13-15 uur niet meer is dan 9-11 uur. Het tijdstip 0 is niet de
afwezigheid van uren. Ook temperatuur is een voorbeeld (0 is niet de afwezigheid van
temperatuur, 20 graden is niet 2 keer warmer dan 10 graden).
– Ratioschaal: er is een nulpunt aanwezig bij dit soort intervallen. Het gaat bijvoorbeeld om
lengte (0 is effectief afwezigheid van lengte). Of wachttijd waarbij 20 minuten dubbel zo
lang wachten is als 10 minuten.
4. Gegevens verwerken (datavisualisatie)
Er wordt een overzicht gegeven van de betrokken variabelen en het patroon van die de gemeten
gegevens aannemen. Dit kan aan de hand van een tabel of een grafische voorstelling.
• Frequentieverdelingen: dit zijn getaltabellen die gegevens voorstellen. Het kan gaan om een
frequentietabel (toont waarnemingen van één variabele) of een contingentietabel/kruistabel
(toont uitkomsten van meerdere variabelen).
• Grafische voorstellingen: vele soorten grafieken die de bekomen gegevens op verschillende
manieren visualiseren.
➔ Cirkeldiagram, staafdiagram, histogram, lijndiagram, spreidingsgrafiek, stamdiagram,
grafiek met een tijd as.
5. Gegevens verwerken op kwalitatief niveau
Frequetietabel (één kwalitatieve variabele):
– n = steekproefgrootte / aantal waarnemeningen
– p = aantal verschillende waarnemingen (hier 9)
– xi = waarneming i, hier is x1 = N-VA
– ni= absolute frequentie van waarneming i
– fi= relatieve frequetie van waarneming i
→ Een cirkel en kolomdiagram zijn goede visualisatie.
Hoofdstuk 1: gegevens verwerken
1. Inleiding
Een statistisch onderzoek in de beschrijvende statistiek probeert conclusies te maken over een
gehele populatie door het onderzoeken van een steekproef.
– Populatie: de gehele groep van alle te bestuderen elementen. Bijvoorbeeld alle studenten van
de school HoGent.
– Steekproef: een deelverzameling van de populatie, de omvang kan verschillen.
– Variabelen: kenmerken van de populatie die onderzocht worden, bijvoorbeeld leeftijd,
studieresultaten van studenten...
Afhankelijk van hoe representatief de steekproef is, kan een betrouwbaarheidsmaat opgesteld
worden van de steekproef voor de populatie.
2. Steekproef en populatie
Wanneer we dus een populatie willen onderzoeken, kost het onderzoeken van elk element teveel
tijd en geld. Daardoor wordt aan de hand van een steekproefkader een effectieve steekproef
bepaald. De populatie kan bijvoorbeeld elke Vlaamse dierenarts zijn, het steekproefkader is een lijst
met alle Vlaamse dierenartsen, de steekproef is x aantal elementen van het steekproefkader.
Een representatieve steekproef is aselect: elk element van de populatie moet een gelijke kans
hebben om in de steekproef terecht te komen. Indien dit niet het geval is, is dat onzuiver/gebiased.
Een methode om de steekproef aselect te houden is randomisatie: de selectie gebeurt volledig
willekeurig.
Verder moet een steekproef ook betrouwbaar zijn. De omvang ervan bepaalt veel, deze mag niet te
klein zijn, dat geeft onzekere resultaten. Een te grote steekproef brengt onnodige tijd en kosten mee.
We onderscheiden enkele manieren om gegevens over de steekproef te verzamelen:
– Interview: één op één gesprek die goed is om in het begin van het onderzoek in te leiden,
maar ook op het einde om bepaalde zaken uit te diepen. Een groot nadeel is dat het geen
kwantitatieve informatie oplevert en zeer veel tijd kost.
– Focusgroep: homogene groep (bijvoorbeeld enkel werknemers zonder werkgevers) van 7-10
mensen waarmee een groepsgesprek wordt gevoerd. Er ontstaat een discussie die door
elkaar gestimuleerd wordt, waarbij de gespreksleider het gesprek in banen leidt, maar vooral
observeert. Niet te gebruiken bij gevoelige onderwerpen of verbaal zwakke mensen.
– Enquête: meestal gebruikt voor kwantitatief onderzoek op grote schaal. Nadeel is dat er op
bepaalde zaken niet ingegaan kan worden.
– Observatieonderzoek: onderzoeker observeert (zonder in te grijpen in enige vorm!) de
mensen of objecten in hun natuurlijke omgeving. Kost veel tijd en gedachten kan je niet
observeren, maar beste vorm om realiteit te onderzoeken.
– Experiment: toetsen van een hypothese waarbij bijvoorbeeld medicatie wordt getest. Het kan
zeer juiste informatie opleveren maar kan soms onethisch zijn.
→ Non-respons is een zeer groot probleem die resultaten van een onderzoek sterk kan beïnvloeden.
, 3. Variabelen
Variabelen zijn kenmerken of eigenschappen van de elementen van de steekproef, die verschillen
onder de individuen. We onderscheiden verschillende vormen van variabelen:
– Kwalitatieve variabele: geen numerieke waarden, maar aanduidingen of kenmerken zoals
kleuren of rassen
– Kwantitatieve variabele: een numerieke waarde zoals gewicht
➔ Discrete variabele: een afgerond getal geheel getal dat vele waarden kan aannemen zoals
aantal ogen geworpen op dobbelsteen, aantal kinderen in een gezin...
➔ Continue variabele: kan elk waardegetal bereiken binnen de reële getallen of is een
interval waarin het ligt.
We bespreken ook van meetniveaus van deze variabelen. Aan de hand hiervan wordt bepaald op
welke manier we mogen rekenen met de bekomen resultaten.
– Nominale schaal: een kenmerk wordt een willekeurig getal gegeven. Bijvoorbeeld 1 =
groen, 2 = blauw; 3 = zwart. Het is een soort codering die ook steeds vermeld moet worden.
Er kan hier uiteraard niet mee gerekend worden
– Ordinale schaal: ook hier gaat het om het geven van een cijfer aan een bepaald kenmerk,
alleen zijn de nummers wel in een logische volgorde. Zoals het aantal sterren tussen 1-5 of
1= is slecht; 2= goed; 3= uitstekend. In principe mag hier niet mee gerekend worden maar
het is wel mogelijk.
– Intervalschaal: een intervalschaal kent geen eenduidig nulpunt. Het gaat bijvoorbeeld om
uur intervallen waarbij 13-15 uur niet meer is dan 9-11 uur. Het tijdstip 0 is niet de
afwezigheid van uren. Ook temperatuur is een voorbeeld (0 is niet de afwezigheid van
temperatuur, 20 graden is niet 2 keer warmer dan 10 graden).
– Ratioschaal: er is een nulpunt aanwezig bij dit soort intervallen. Het gaat bijvoorbeeld om
lengte (0 is effectief afwezigheid van lengte). Of wachttijd waarbij 20 minuten dubbel zo
lang wachten is als 10 minuten.
4. Gegevens verwerken (datavisualisatie)
Er wordt een overzicht gegeven van de betrokken variabelen en het patroon van die de gemeten
gegevens aannemen. Dit kan aan de hand van een tabel of een grafische voorstelling.
• Frequentieverdelingen: dit zijn getaltabellen die gegevens voorstellen. Het kan gaan om een
frequentietabel (toont waarnemingen van één variabele) of een contingentietabel/kruistabel
(toont uitkomsten van meerdere variabelen).
• Grafische voorstellingen: vele soorten grafieken die de bekomen gegevens op verschillende
manieren visualiseren.
➔ Cirkeldiagram, staafdiagram, histogram, lijndiagram, spreidingsgrafiek, stamdiagram,
grafiek met een tijd as.
5. Gegevens verwerken op kwalitatief niveau
Frequetietabel (één kwalitatieve variabele):
– n = steekproefgrootte / aantal waarnemeningen
– p = aantal verschillende waarnemingen (hier 9)
– xi = waarneming i, hier is x1 = N-VA
– ni= absolute frequentie van waarneming i
– fi= relatieve frequetie van waarneming i
→ Een cirkel en kolomdiagram zijn goede visualisatie.