Assistent: Tiana Poffé
Aurélie Saussus, assistent: Tiana Poffé
FARMACEUTISCHE DATA-ANALYSE
Farmaceutische Wetenschappen
1
, Assistent: Tiana Poffé
Vraag 1
Er zijn 113 observaties (dus 113 verschillende participanten). Om de dataset te kunnen visualiseren
zijn grafieken nuttig, maar daarvoor moet men eerst de variabele “geslacht” labelen voor mannen en
vrouwen
Om een overzicht te geven van de verdeling van geslacht in deze studie heb ik gekozen voor een
taartdiagram.
Deze getallen verkrijgt men op volgende wijze: variable
views > values > sex > values > tabel met value en label >
plusteken > value = 0 en label = vrouw, value = 1 en label
= man > ok. Ik vond het overzichtelijk om hiervoor een
taartdiagram te maken. Dit heb ik gedaan op volgende
wijze: graphs > pie > summaries of groups of cases >
define slices by sex.
Figuur 1: taartdiagram geslacht
Uit figuur 1 kan men afleiden dat er meer mannen dan vrouwen meedoen aan deze studie. Echter,
om dit met zekerheid te besluiten en het exacte aantal mannen en vrouwen in de studie te kennen,
kan men een frequentietabel opstellen:
Deze tabel verkrijgt men op volgende
wijze: analyze > descriptive statistics >
frequencies > variable: sex > display
frequency tables > ok.
Tabel 1: frequentietabel geslacht
Uit tabel 1 kan men aflezen dat er 51 vrouwen (45,1%) en 62 mannen (54,9%) meedoen aan deze
studie, resulterend in een totaal aantal van 113 proefpersonen. De schatting die men gemaakt had
op basis van het taartdiagram dat er meer mannen dan vrouwen meedoen aan de studie klopt dus
wel degelijk.
Vervolgens wil men nagaan hoe de participanten verdeeld zijn qua leeftijd. Hiervoor vond ik het
interessant om eerst de leeftijdscategorieën te visualiseren via een Bar Plot en om dan de
uitschieters te bekijken via een histogram.
Deze figuur krijgt men op volgende
wijze: transform > recode into
different variables > variable: age >
old and new values: young = 0-63y,
average = 64-82y, old = 83-120y.
Dan graphs > chart builder > bar >
simple bar > x-as: agecategory, y-
as: count > ok.
Figuur 2: Bar Plot ‘Agecategory’
De variabele leeftijd is een continue variabele, maar door deze te transformeren wordt dit een
categorische variabele.
Deze leeftijdscategorieën heb ik zo gekozen, omdat uit de gegevens opviel dat er veel participanten
tussen 64 en 82 jaar oud waren.
2
, Assistent: Tiana Poffé
Deze figuur krijgt men op
volgende wijze: graphs >
histogram > variable: age >
display normal curve > ok.
Figuur 3: histogram leeftijd
Uit dit histogram kan men afleiden dat er geen opvallende uitschieters zijn, maar als men dit precies
wil weten, kan men een boxplot uitvoeren, zodat potentiële uitschieters duidelijk worden (zie figuur
4 op volgende bladzijde). Outliers zijn waarnemingen die aanzienlijk verschillen van de rest van de
dataset.
Uit deze histogram kan men ook enkele beschrijvende statistische waarden halen, namelijk het
gemiddelde (mean = 72,36 jaar) en de standaarddeviatie (Std. Dev. = 7,363 jaar). De
standaarddeviatie geeft ons een idee over de afstand van de waarden ten opzichte van het
gemiddelde. Dus kan men concluderen dat de groep vrij oud is en dat de leeftijden redelijk
geconcentreerd zijn rond het gemiddelde.
Een boxplot stelt men op op volgende wijze:
graphs > boxplot > summaries of seperate
variables > box represent = age.
Figuur 4: boxplot leeftijd
Hieruit kan men concluderen dat er drie outliers zijn, namelijk: 54, 84, en 91. Deze waarden liggen
buiten de interkwartielafstand (= IQR = Q3 – Q1), want onze interkwartielafstand heeft 50 als
ondergrens (= Q1 – 1,5 x IQR) en 90 als bovengrens (= Q3 + 1,5 x IQR), waardoor ze als uitschieters
beschouwd kunnen worden. Wel zijn het geen extreme uitschieters.
Ten slotte wil men de variabelen geslacht en leeftijd vergelijken met opleidingsniveau.
Om geslacht te vergelijken met het opleidingsniveau heb ik gekozen voor een Clustered Bar Chart,
omdat dit beide categorische variabelen zijn. Men zou eventueel kunnen kiezen voor een
taartdiagram, maar door het verschil tussen het aantal mannen en vrouwen, is het overzichtelijker
om te kiezen voor Clustered Bar Chart, omdat er dan percentages per geslacht getoond worden in
plaats van absolute aantallen.
3
Aurélie Saussus, assistent: Tiana Poffé
FARMACEUTISCHE DATA-ANALYSE
Farmaceutische Wetenschappen
1
, Assistent: Tiana Poffé
Vraag 1
Er zijn 113 observaties (dus 113 verschillende participanten). Om de dataset te kunnen visualiseren
zijn grafieken nuttig, maar daarvoor moet men eerst de variabele “geslacht” labelen voor mannen en
vrouwen
Om een overzicht te geven van de verdeling van geslacht in deze studie heb ik gekozen voor een
taartdiagram.
Deze getallen verkrijgt men op volgende wijze: variable
views > values > sex > values > tabel met value en label >
plusteken > value = 0 en label = vrouw, value = 1 en label
= man > ok. Ik vond het overzichtelijk om hiervoor een
taartdiagram te maken. Dit heb ik gedaan op volgende
wijze: graphs > pie > summaries of groups of cases >
define slices by sex.
Figuur 1: taartdiagram geslacht
Uit figuur 1 kan men afleiden dat er meer mannen dan vrouwen meedoen aan deze studie. Echter,
om dit met zekerheid te besluiten en het exacte aantal mannen en vrouwen in de studie te kennen,
kan men een frequentietabel opstellen:
Deze tabel verkrijgt men op volgende
wijze: analyze > descriptive statistics >
frequencies > variable: sex > display
frequency tables > ok.
Tabel 1: frequentietabel geslacht
Uit tabel 1 kan men aflezen dat er 51 vrouwen (45,1%) en 62 mannen (54,9%) meedoen aan deze
studie, resulterend in een totaal aantal van 113 proefpersonen. De schatting die men gemaakt had
op basis van het taartdiagram dat er meer mannen dan vrouwen meedoen aan de studie klopt dus
wel degelijk.
Vervolgens wil men nagaan hoe de participanten verdeeld zijn qua leeftijd. Hiervoor vond ik het
interessant om eerst de leeftijdscategorieën te visualiseren via een Bar Plot en om dan de
uitschieters te bekijken via een histogram.
Deze figuur krijgt men op volgende
wijze: transform > recode into
different variables > variable: age >
old and new values: young = 0-63y,
average = 64-82y, old = 83-120y.
Dan graphs > chart builder > bar >
simple bar > x-as: agecategory, y-
as: count > ok.
Figuur 2: Bar Plot ‘Agecategory’
De variabele leeftijd is een continue variabele, maar door deze te transformeren wordt dit een
categorische variabele.
Deze leeftijdscategorieën heb ik zo gekozen, omdat uit de gegevens opviel dat er veel participanten
tussen 64 en 82 jaar oud waren.
2
, Assistent: Tiana Poffé
Deze figuur krijgt men op
volgende wijze: graphs >
histogram > variable: age >
display normal curve > ok.
Figuur 3: histogram leeftijd
Uit dit histogram kan men afleiden dat er geen opvallende uitschieters zijn, maar als men dit precies
wil weten, kan men een boxplot uitvoeren, zodat potentiële uitschieters duidelijk worden (zie figuur
4 op volgende bladzijde). Outliers zijn waarnemingen die aanzienlijk verschillen van de rest van de
dataset.
Uit deze histogram kan men ook enkele beschrijvende statistische waarden halen, namelijk het
gemiddelde (mean = 72,36 jaar) en de standaarddeviatie (Std. Dev. = 7,363 jaar). De
standaarddeviatie geeft ons een idee over de afstand van de waarden ten opzichte van het
gemiddelde. Dus kan men concluderen dat de groep vrij oud is en dat de leeftijden redelijk
geconcentreerd zijn rond het gemiddelde.
Een boxplot stelt men op op volgende wijze:
graphs > boxplot > summaries of seperate
variables > box represent = age.
Figuur 4: boxplot leeftijd
Hieruit kan men concluderen dat er drie outliers zijn, namelijk: 54, 84, en 91. Deze waarden liggen
buiten de interkwartielafstand (= IQR = Q3 – Q1), want onze interkwartielafstand heeft 50 als
ondergrens (= Q1 – 1,5 x IQR) en 90 als bovengrens (= Q3 + 1,5 x IQR), waardoor ze als uitschieters
beschouwd kunnen worden. Wel zijn het geen extreme uitschieters.
Ten slotte wil men de variabelen geslacht en leeftijd vergelijken met opleidingsniveau.
Om geslacht te vergelijken met het opleidingsniveau heb ik gekozen voor een Clustered Bar Chart,
omdat dit beide categorische variabelen zijn. Men zou eventueel kunnen kiezen voor een
taartdiagram, maar door het verschil tussen het aantal mannen en vrouwen, is het overzichtelijker
om te kiezen voor Clustered Bar Chart, omdat er dan percentages per geslacht getoond worden in
plaats van absolute aantallen.
3