100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Samenvatting Statistiek 3 (deeltentamen 2)

Rating
3.0
(1)
Sold
1
Pages
13
Uploaded on
03-06-2020
Written in
2019/2020

Samenvatting voor het tweede deeltentamen van Statistiek 3. De samenvatting is gemaakt op basis van H12 en H13 uit Agresti en is aangevuld met de stof uit de hoorcolleges.

Institution
Course










Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
No
Which chapters are summarized?
H12, h13
Uploaded on
June 3, 2020
File latest updated on
June 6, 2021
Number of pages
13
Written in
2019/2020
Type
Summary

Subjects

Content preview

Samenvatting Statistiek 3 (deeltentamen 2)
Statistiek 1A, 1B, 2 en statistiek 3 deeltentamen 1 hoort ook bij de tentamenstof!


12.1 – Regressiemodellering met dummyvariabelen
Een nominale categorische variabele kan behandeld worden als kwantitatieve variabele
(door scores toe te kennen), maar dit is meer geschikt voor het berekenen van gemiddelden
dan voor proporties. Om te voorkomen dat een model een bepaalde orde in de categorieën
veronderstelt, kan beter gebruik worden gemaakt van codevariabelen. Dit zijn kunstmatige
variabelen die een groepslidmaatschap aangeven.
Een categorische variabelen met 2 niveaus vereist een code variabele met 2 mogelijke
waarden. Bijvoorbeeld:
1 𝑎𝑙𝑠 𝑔𝑒𝑠𝑙𝑎𝑐ℎ𝑡 = 𝑚𝑎𝑛
𝑧𝑖 {
2 𝑎𝑙𝑠 𝑔𝑒𝑠𝑙𝑎𝑐ℎ𝑡 = 𝑣𝑟𝑜𝑢𝑤

Codevariabelen kunnen elke mogelijke waarde aannemen (dus niet alleen de waarde 1 of 2).
De test van het effect verandert niet met de gebruikte codering, maar de interpretatie van het
effect (bijv. via regressiecoëfficiënten of BHI’s) is wel afhankelijk van de gebruikte codering.
Het meest voorkomende coderingssysteem maakt gebruik van nullen en enen: het dummy
coderingssysteem. Bijvoorbeeld:
0 𝑎𝑙𝑠 𝑔𝑒𝑠𝑙𝑎𝑐ℎ𝑡 = 𝑚𝑎𝑛
𝑧𝑖 {
1 𝑎𝑙𝑠 𝑔𝑒𝑠𝑙𝑎𝑐ℎ𝑡 = 𝑣𝑟𝑜𝑢𝑤

De populatieregressielijn van een dummyvariabele op een code variabele z is:
Hierbij kan z alleen de waarden 0 en 1 aannemen.

2 groepen gedefinieerd door de waarden van z:
𝑧1 𝑎𝑙𝑠 𝑝𝑒𝑟𝑠𝑜𝑜𝑛 𝑖 𝑖𝑛 𝑔𝑟𝑜𝑒𝑝 1 𝑧𝑖𝑡
𝑧𝑖 {
𝑧2 𝑎𝑙𝑠 𝑝𝑒𝑟𝑠𝑜𝑜𝑛 𝑖 𝑖𝑛 𝑔𝑟𝑜𝑒𝑝 2 𝑧𝑖𝑡

Als we dit invullen in de regressievergelijking krijgen we:

Groep 1:
Groep 2:

Het regressiemodel beschrijft dus hoe het populatiegemiddelde van y (𝜇𝑦 ) afhangt van de
waarden van z. De waarden van z definiëren 2 subpopulaties waarbij y in beide groepen
normaal verdeeld is, de gemiddelden van de groepen 𝜇1 en 𝜇2 is, en σ constant is (zie de
afbeelding hierboven).
𝛼 en 𝛽 kunnen als volgt geïnterpreteerd worden na het toepassen van het dummy
coderingssysteem:
• 𝛼 = 𝜇1 (het gemiddelde van de referentiegroep: de groep gecodeerd met nullen)
• 𝛽1 = 𝜇2 − 𝜇1 (referentiegroep)
Over het algemeen vereist een categorische variabele met g niveaus (g – 1) codevariabelen.
Hierbij hebben de coderingen niet de waarden van bijv. 0, 1 en 2 omdat je bij categorische
variabelen met meer dan 2 niveaus niet mag aannemen dat de verschillen tussen de
waarden gelijk aan elkaar zijn.




1

,Een ander coderingssysteem leidt tot andere parameters wat leidt tot andere interpretaties:




De independent samples t-test voor het testen van 𝐻0 ∶ 𝛽1 = 0 is gelijk aan 𝐻0 ∶ 𝜇1 = 𝜇2 . De
toetsingsgrootheid die bij deze toets hoort is:
Hierbij is 𝑑𝑓 = 𝑛1 + 𝑛2 − 2. Om te beslissen of 𝐻0 verworpen moet
worden, vergelijk je t met t*. Als t > t*, dan wordt 𝐻0 verworpen.


Hierbij is 𝑠𝑝2 =


Het verschil tussen 𝜇1 en 𝜇2 kan ook getoetst worden m.b.v. regressie. Dit gebeurt in 4
stappen:
1. Er moet een codevariabele gecreëerd worden met bepaalde waarden
1 1
2. 𝑏1 = 𝑦̅2 − 𝑦̅1 en 𝑆𝐸𝑏1 moeten berekend worden. Hierbij is 𝑆𝐸𝑏1 = 𝑠𝑝√𝑛 + 𝑛
1 2
𝑏1
3. De toetsingsgrootheid met 𝑡 = 𝑆𝐸 moet uitgerekend worden
𝑏1
4. t wordt vergeleken met t* om te bepalen of 𝐻0 verworpen moet worden
Codevariabelen functioneren dus als groepsidentificatoren. Een voorbeeld van een
groepsindeling is:

Hierbij is 𝑧1 de identificator voor groep 1, 𝑧2 de identificator voor
groep 2 en 𝑧3 de identificator voor groep 3. Groep 4 is de
referentiegroep.



De multipele regressievergelijking voor codevariabelen is:


Elke set waarden {z1, z2, z3} definieert een subpopulatie van y-waarden, normaal verdeeld
rond 𝜇𝑦 met constante σ.

De indeling van groepen op basis van het multipele regressiemodel is dan:




2

, De gemiddelde waarden van de groepen zijn dan:


Hierbij is 𝜇4 de referentiegroep.



De toetsen die bij het multipele regressiemodel van codevariabelen horen, zijn:
𝐻0 ∶ 𝜇1 = 𝜇2 = . . . 𝜇𝑔 of 𝐻0 ∶ 𝛽1 = 𝛽2 = . . . 𝛽𝑔−1 = 0 of 𝐻0 ∶ 𝑅2 = 0

Om deze tests uit te voeren wordt de (omnibus ANOVA) F-test gebruikt:

Hierbij is p = aantal predictoren = g – 1.


Voor elk coderingssysteem is de F-test hetzelfde.
De F-toets is robuust als de populatieverdeling niet helemaal normaal verdeeld is en als de
standaarddeviaties niet helemaal hetzelfde zijn. Bij erg scheef verdeelde data werkt de
F-toets dus niet, daarom is de willekeurigheid van de steekproeven belangrijk.
12.2 – Meerdere vergelijkingen van gemiddelden
Wanneer de volgende nulhypothesen verworpen worden, geeft dit aan dat niet alle
groepsgemiddelden in de populatie gelijk aan elkaar zijn: 𝐻0 ∶ 𝜇1 = 𝜇2 = . . . 𝜇𝑔 of
𝐻0 ∶ 𝛽1 = 𝛽2 = . . . 𝛽𝑔−1 = 0 of 𝐻0 ∶ 𝑅2 = 0. Om te onderzoeken welke groepen van elkaar
verschillen, kan er gekeken worden naar visuele plots van de groepsgemiddelden met hun
spreiding. Ook kan dit onderzocht worden door statistische inferenties uit te voeren. Deze
statistische inferenties zijn nodig omdat er zonder deze inferenties een te grote overall error
rate (algemeen foutenpercentage) of experiment-wise error rate is. Dit is de kans op
tenminste 1 Type I fout in de reeks tests en wordt ook wel kanskapitalisatie genoemd. De
kans op het maken van een Type I fout neemt toe met het aantal uit te voeren tests.
Een voorbeeld van kanskapitalisatie:
Stel je hebt 6 tests, waarbij 𝛼 = 5% voor elke test. Dan is de overall error rate:
1 − 𝑃 (𝑔𝑒𝑒𝑛 𝑣𝑎𝑙𝑠𝑒 𝑣𝑒𝑟𝑤𝑒𝑟𝑝𝑖𝑛𝑔) ≈ 1 − (1 − 0.05)6 = 0.265. Er is dus een kans van 26% op
tenminste 1 valse verwerping.
Kanskapitalisatie kan door 2 inferentieprocedures vermeden worden:
1. Contrasten (geplande vergelijkingen)
Contrasten zijn hypothesen die men opstelt voorafgaand aan het verzamelen van data. Ze
worden ook wel lineaire combinaties van groepsgemiddelden genoemd. Het uitrekenen van
contrasten wordt hieronder uitgelegd aan de hand van een voorbeeld.
Stel je hebt een experiment met 3 groepen (groep 1 = behandeling 1, groep 2 = behandeling
2, groep 3 = controlegroep). Om te onderzoeken of behandeling 1 effectiever is dan
behandeling 2, moet de volgende test uitgevoerd worden: 𝐻01 ∶ 𝜇1 = 𝜇2 vs. 𝐻𝑎1 ∶ 𝜇1 > 𝜇2 .
De tweede stap is het herschrijven van de hypothesen op de volgende manier:
𝐻01 ∶ 𝜇1 − 𝜇2 = 0 vs. 𝐻𝑎1 ∶ 𝜇1 − 𝜇2 > 0. De derde stap is het herschrijven van deze
hypothesen zodat de lineaire combinaties te zien zijn: 𝐻01 ∶ 1𝜇1 + (−1)𝜇2 + 0𝜇3 = 0.
Contrast 1 (𝜓1) is dus 1𝜇1 + (−1)𝜇2 + 0𝜇3 met de coëfficiënten: 1, -1 en 0.
Om te onderzoeken of het behandelingseffect (groep 1 en 2 gecombineerd) effectief is, moet
𝜇 +𝜇 𝜇 +𝜇
de volgende test uitgevoerd worden: 𝐻02 ∶ 1 2 2 = 𝜇3 vs. 𝐻𝑎2 ∶ 1 2 2 > 𝜇3 . De hypothesen
𝜇 +𝜇 𝜇 +𝜇
moeten dan als volgt herschreven worden: 𝐻02 ∶ 1 2 2 − 𝜇3 = 0 vs. 𝐻𝑎2 ∶ 1 2 2 − 𝜇3 > 0.
Contrast 2 (𝜓2) is dan 0.5𝜇1 + 0.5𝜇2 + (−1)𝜇3 met de coëfficiënten: 0.5, 0.5 en -1.


3
$6.66
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached


Also available in package deal

Reviews from verified buyers

Showing all reviews
4 year ago

Hi! Your summary is semi-fine, but it is not clear to me what main topic it is about (like Repeated Measures ANOVA bv). And I'm missing something about sphericity. There are also things staggered and intertwined.

3.0

1 reviews

5
0
4
0
3
1
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
lottekalk02 Rijksuniversiteit Groningen
Follow You need to be logged in order to follow users or courses
Sold
508
Member since
7 year
Number of followers
325
Documents
32
Last sold
1 week ago

3.9

49 reviews

5
11
4
27
3
9
2
1
1
1

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions