Twisk- Inleiding in de toegepaste biostatistiek H2: Beschrijvende statistiek.
De beschrijvende statistiek heeft tot doel onderzoeksgegevens op een overzichtelijke manier
samen te vatten. Dit kan grafisch of numeriek.
Een continue variabele kan grafisch worden weergegeven met behulp van een histogram,
met op de y-as de aantallen proefpersonen en x-as de variabele.
Een alternatieve manier is met behulp van een stem and leaf plot.
Dichotome en categoriale variabelen kunnen grafisch worden weergegeven met behulp van
een staaf-of taartdiagram.
Net als bij het grafisch weergeven speelt ook bij het numeriek weergeven van
onderzoeksgegevens een rol om welke soort variabele het gaat.
Het is gewoonlijk om dichotome of categoriale variabelen weer te geven met behulp van een
frequentietabel. Naast de aantallen zien we ook het percentage, valide percentage (waarbij
de missende waarden niet worden meegeteld) en de percentages opgeteld.
Voor continue variabelen is een frequentietabel niet informatief, omdat er te veel mogelijke
waarden zijn die allemaal hooguit een paar keer voorkomen. Vandaar dat voor continue
variabelen meestal samenvattingsmaten worden gebruikt.
De meest gebruikte samenvattingsmaat is het gemiddelde, welke berekend kan
worden door alle waarden bij elkaar op te tellen en dat getal vervolgens te
delen door het aantal observaties/waarnemingen.
Waarbij x (met streepje) de gemiddelde waarde is, n het aantal personen in de
onderzoekspopulatie, xi de waarde van variabele x voor persoon i.
Naast het gemiddelde is het bij een continue variabele ook van belang om iets te zeggen
over de spreiding van de observaties. De spreiding wordt meestal weergegeven met de
standaarddeviatie.
De grootte van de standaarddeviatie kan ongeveer gezien worden als het gemiddelde
verschil tussen de observaties en het gemiddelde.
Het gemiddelde verschil tussen de afzonderlijke observaties en het gemiddelde is niet
informatief, want die waarde is altijd gelijk aan 0.
Vandaar dat de verschillen van de observaties ten opzichte van het
gemiddelde eerst worden gekwadrateerd en dat daar dan vervolgens
weer de wortel van wordt genomen. het gemiddelde van de
gekwadrateerde verschillen wordt de variantie genoemd en de wortel
uit de variantie is de standaarddeviatie.
1
De beschrijvende statistiek heeft tot doel onderzoeksgegevens op een overzichtelijke manier
samen te vatten. Dit kan grafisch of numeriek.
Een continue variabele kan grafisch worden weergegeven met behulp van een histogram,
met op de y-as de aantallen proefpersonen en x-as de variabele.
Een alternatieve manier is met behulp van een stem and leaf plot.
Dichotome en categoriale variabelen kunnen grafisch worden weergegeven met behulp van
een staaf-of taartdiagram.
Net als bij het grafisch weergeven speelt ook bij het numeriek weergeven van
onderzoeksgegevens een rol om welke soort variabele het gaat.
Het is gewoonlijk om dichotome of categoriale variabelen weer te geven met behulp van een
frequentietabel. Naast de aantallen zien we ook het percentage, valide percentage (waarbij
de missende waarden niet worden meegeteld) en de percentages opgeteld.
Voor continue variabelen is een frequentietabel niet informatief, omdat er te veel mogelijke
waarden zijn die allemaal hooguit een paar keer voorkomen. Vandaar dat voor continue
variabelen meestal samenvattingsmaten worden gebruikt.
De meest gebruikte samenvattingsmaat is het gemiddelde, welke berekend kan
worden door alle waarden bij elkaar op te tellen en dat getal vervolgens te
delen door het aantal observaties/waarnemingen.
Waarbij x (met streepje) de gemiddelde waarde is, n het aantal personen in de
onderzoekspopulatie, xi de waarde van variabele x voor persoon i.
Naast het gemiddelde is het bij een continue variabele ook van belang om iets te zeggen
over de spreiding van de observaties. De spreiding wordt meestal weergegeven met de
standaarddeviatie.
De grootte van de standaarddeviatie kan ongeveer gezien worden als het gemiddelde
verschil tussen de observaties en het gemiddelde.
Het gemiddelde verschil tussen de afzonderlijke observaties en het gemiddelde is niet
informatief, want die waarde is altijd gelijk aan 0.
Vandaar dat de verschillen van de observaties ten opzichte van het
gemiddelde eerst worden gekwadrateerd en dat daar dan vervolgens
weer de wortel van wordt genomen. het gemiddelde van de
gekwadrateerde verschillen wordt de variantie genoemd en de wortel
uit de variantie is de standaarddeviatie.
1