Oefententamen 1
Opgave 1
Opdracht (pilot): Woonsituatie studenten
Enkele jaren geleden is onderzoek gedaan naar de woonsituatie van studenten.
Hierbij zijn allerlei aspecten van de woonsituatie gemeten, zoals de grootte van
de kamer, de aanwezige voorzieningen, de kamerhuur, de locatie van de
woongelegenheid, en vele andere. Er zijn gegevens verzameld over 111
studenten. Doel van dit onderzoek was om inzicht te krijgen in de factoren die
bijdragen aan verschillen in de kamerhuur tussen studenten. Een overzicht van
de beschikbare gegevens staat in de onderstaande tabel.
Variabele Beschrijving
sizeRoom Oppervlakte van de kamer (in m^2);
rentRoom Betaalde kamerhuur (in euro/maand);
hrsTravel Reistijd van woonadres naar universiteit (in uren);
dShower Dummy `Beschikking over eigen douche': 1 = ja, 0 =
nee;
dKitchen Dummy `Beschikking over eigen keuken': 1 = ja, 0 =
nee.
Bij aanvang van het onderzoek is het volgende causale relatieschema gemaakt
van de verwachte relaties:
Gemakshalve is de verwachte aard van de relaties niet weergegeven.
1a
Gegeven de veronderstellingen die in het causale relatieschema zijn afgebeeld,
wat is de rol van de grootte van de kamer (sizeRoom)?
Intervalvariabele
Interveniërende variabele
Ordinale variabele
Modererende variabele
Gezamenlijke oorzaak
, Nominale variabele
Kamergrootte (sizeRoom) heeft in het afgebeelde causale schema de
rol van interveniërende variabele: ze wordt beïnvloed door de
aanwezigheid van een eigen keuken (dKitchen), maar heeft zelf ook
weer invloed op de kamerhuur (rentRoom)
1b
Bepaal de meest geëigende niet-parametrische techniek voor het analyseren van
de verwachte samenhang tussen de aanwezigheid van een eigen keuken
(dKitchen) en de kamerhuur (rentRoom).
Pearson's correlatiecoëfficiënt
t-toets voor twee onafhankelijke steekproeven
Mann-Whitney toets
Fisher's exacte toets
Friedman toets
t-toets voor twee afhankelijke steekproeven
Spearman’s rangcorrelatiecoëfficiënt
De vraag is om te bepalen wat de meest geëigende niet-parametrische
toets is, hetgeen impliceert dat beide t-toetsen en Pearson's
correlatiecoëfficiënt afvallen. Verder is de aanwezigheid van een
keuken een indicatorvariabele met twee mogelijke uitkomsten,
terwijl de kamerhuur een ratiovariabele is. In deze situatie is de niet-
parametrische Mann-Whitney toets dus het meest geëigend.
(b)
Onderstaande tabel bevat steekproefgemiddelden en standaarddeviaties van de
verzamelde gegevens:
Variable Average Standard deviation
sizeRoom 27.05 26.87
rentRoom 583.47 223.41
hrsTravel 0.47 0.47
dShower 0.44 0.5
dKitchen 0.41 0.49
Gebruik deze beschrijvende resultaten voor de beantwoording van de volgende
vragen.
1c
Bepaal een puntschatting van de variantie van de kamerhuur (rentRoom; in 3
decimalen)
49912.028
223.41^2 = 49912.03
1d
, Bereken de bovengrens van een 95%-betrouwbaarheidsintervalschatting van de
variantie van de kamerhuur (in 3 decimalen)
66254.64
ciupp=(n−1)s2/χ2n−1,α/2
(n-1) = (111 – 1)
S2 = 223.41^2 49912.03
χ2n−1,α/2 = χ2110, 0.025 voer in R qchisq(0.025, df=110)
[1] 82.86705
((111 – 1) * (223.41^2)) / 82.86705 = 66.254,59807
Stel dat de bovengrens van de intervalschatting in het voorgaande onderdeel
wordt berekend met de volgende R code:
Voorafgaand aan deze code zijn beschrijvende kenmerken berekend met
functie describe en opgeslagen object tmp.
1e
Beoordeel of deze code de bovengrens (ciUpp) van de gewenste
intervalschatting correct of niet correct (met juiste motivatie) berekent.
Niet correct, want variabele std in de berekening van ciLow en ciUpp moet
niet gekwadrateerd worden
Niet correct, want de foutenkans alpha (α) moet worden gedeeld
door twee
Niet correct, want functie qnorm() moet worden toegepast in plaats van
functie qchisq()
Niet correct, want het betrouwbaarheidsniveau (confLvl) moet worden
ingesteld als 0.05 (=1-0.95)
Niet correct, want de berekening van linker en rechter grenswaarden met
functie qchisq() is precies verkeerd om, i.e., variabele YcritL bevat de
rechter kritieke waarde en variabele YcritR de linker kritieke waarde
Opgave 1
Opdracht (pilot): Woonsituatie studenten
Enkele jaren geleden is onderzoek gedaan naar de woonsituatie van studenten.
Hierbij zijn allerlei aspecten van de woonsituatie gemeten, zoals de grootte van
de kamer, de aanwezige voorzieningen, de kamerhuur, de locatie van de
woongelegenheid, en vele andere. Er zijn gegevens verzameld over 111
studenten. Doel van dit onderzoek was om inzicht te krijgen in de factoren die
bijdragen aan verschillen in de kamerhuur tussen studenten. Een overzicht van
de beschikbare gegevens staat in de onderstaande tabel.
Variabele Beschrijving
sizeRoom Oppervlakte van de kamer (in m^2);
rentRoom Betaalde kamerhuur (in euro/maand);
hrsTravel Reistijd van woonadres naar universiteit (in uren);
dShower Dummy `Beschikking over eigen douche': 1 = ja, 0 =
nee;
dKitchen Dummy `Beschikking over eigen keuken': 1 = ja, 0 =
nee.
Bij aanvang van het onderzoek is het volgende causale relatieschema gemaakt
van de verwachte relaties:
Gemakshalve is de verwachte aard van de relaties niet weergegeven.
1a
Gegeven de veronderstellingen die in het causale relatieschema zijn afgebeeld,
wat is de rol van de grootte van de kamer (sizeRoom)?
Intervalvariabele
Interveniërende variabele
Ordinale variabele
Modererende variabele
Gezamenlijke oorzaak
, Nominale variabele
Kamergrootte (sizeRoom) heeft in het afgebeelde causale schema de
rol van interveniërende variabele: ze wordt beïnvloed door de
aanwezigheid van een eigen keuken (dKitchen), maar heeft zelf ook
weer invloed op de kamerhuur (rentRoom)
1b
Bepaal de meest geëigende niet-parametrische techniek voor het analyseren van
de verwachte samenhang tussen de aanwezigheid van een eigen keuken
(dKitchen) en de kamerhuur (rentRoom).
Pearson's correlatiecoëfficiënt
t-toets voor twee onafhankelijke steekproeven
Mann-Whitney toets
Fisher's exacte toets
Friedman toets
t-toets voor twee afhankelijke steekproeven
Spearman’s rangcorrelatiecoëfficiënt
De vraag is om te bepalen wat de meest geëigende niet-parametrische
toets is, hetgeen impliceert dat beide t-toetsen en Pearson's
correlatiecoëfficiënt afvallen. Verder is de aanwezigheid van een
keuken een indicatorvariabele met twee mogelijke uitkomsten,
terwijl de kamerhuur een ratiovariabele is. In deze situatie is de niet-
parametrische Mann-Whitney toets dus het meest geëigend.
(b)
Onderstaande tabel bevat steekproefgemiddelden en standaarddeviaties van de
verzamelde gegevens:
Variable Average Standard deviation
sizeRoom 27.05 26.87
rentRoom 583.47 223.41
hrsTravel 0.47 0.47
dShower 0.44 0.5
dKitchen 0.41 0.49
Gebruik deze beschrijvende resultaten voor de beantwoording van de volgende
vragen.
1c
Bepaal een puntschatting van de variantie van de kamerhuur (rentRoom; in 3
decimalen)
49912.028
223.41^2 = 49912.03
1d
, Bereken de bovengrens van een 95%-betrouwbaarheidsintervalschatting van de
variantie van de kamerhuur (in 3 decimalen)
66254.64
ciupp=(n−1)s2/χ2n−1,α/2
(n-1) = (111 – 1)
S2 = 223.41^2 49912.03
χ2n−1,α/2 = χ2110, 0.025 voer in R qchisq(0.025, df=110)
[1] 82.86705
((111 – 1) * (223.41^2)) / 82.86705 = 66.254,59807
Stel dat de bovengrens van de intervalschatting in het voorgaande onderdeel
wordt berekend met de volgende R code:
Voorafgaand aan deze code zijn beschrijvende kenmerken berekend met
functie describe en opgeslagen object tmp.
1e
Beoordeel of deze code de bovengrens (ciUpp) van de gewenste
intervalschatting correct of niet correct (met juiste motivatie) berekent.
Niet correct, want variabele std in de berekening van ciLow en ciUpp moet
niet gekwadrateerd worden
Niet correct, want de foutenkans alpha (α) moet worden gedeeld
door twee
Niet correct, want functie qnorm() moet worden toegepast in plaats van
functie qchisq()
Niet correct, want het betrouwbaarheidsniveau (confLvl) moet worden
ingesteld als 0.05 (=1-0.95)
Niet correct, want de berekening van linker en rechter grenswaarden met
functie qchisq() is precies verkeerd om, i.e., variabele YcritL bevat de
rechter kritieke waarde en variabele YcritR de linker kritieke waarde