100% de satisfacción garantizada Inmediatamente disponible después del pago Tanto en línea como en PDF No estas atado a nada 4.2 TrustPilot
logo-home
Resumen

Samenvatting CSI Q7 Statistiek

Puntuación
4.0
(2)
Vendido
10
Páginas
21
Subido en
07-06-2020
Escrito en
2019/2020

Dit is een uitgebreide samenvatting van alle stof voor het tentamen CSI statistiek in Q7 voor de studie geneeskunde aan de Radboud Universiteit. De samenvatting is geschreven in 2020.

Institución
Grado










Ups! No podemos cargar tu documento ahora. Inténtalo de nuevo o contacta con soporte.

Escuela, estudio y materia

Institución
Estudio
Grado

Información del documento

Subido en
7 de junio de 2020
Número de páginas
21
Escrito en
2019/2020
Tipo
Resumen

Temas

Vista previa del contenido

Statistiek - CSI - Q7
———————————————————————————————————————————

Naast overeenkomsten bestaan er ook verschillen tussen de personen in een onderzoek. Wanneer
er metingen gedaan worden, dan verschillen namelijk de uitkomstgetallen. Een maat voor het
verschil tussen de getallen in een onderzoek is de eerder besproken variantie. De
standaarddeviatie is de wortel van de variantie. In deze cursus gaan we ons bezig houden met het
verklaren van die variantie. Bijvoorbeeld dat een deel van de variantie in de lengte kan worden
verklaard door verschillen in geslacht.
Bij experimentele onderzoeken is er sprake van randomisatie. Hierdoor is er in theorie maar één
systematisch verschil tussen de twee groepen in je studie. Dit is de onafhankelijke variabele.
Omdat dit het enige systematische verschil is, kunnen we de verklaarde variantie die we vinden
toewijzen aan het effect. Er is dus geen confounding.

Stel dat je het effect onderzoekt van een
bloeddrukverlagend medicijn. Je maakt
middels randomisatie twee groepen en de
ene groep krijgt het nieuwe medicijn en de
andere groep het traditionele medicijn. Na
toediening meet je de bloeddruk. De
waarden in de tabel zijn de uitkomsten.
Het effect van het medicijn is dan een bloeddrukdaling van 20 mmHg. Je vergelijkt namelijk twee
middelen. Het effect is dus niet het verschil tussen de baseline meting en de eindmeting. Als de
controlegroep een placebo had gekregen was het effect groter geschat. Als de voormeting 160
mmHg was geweest, was de effectmeting nog steeds 20mmHg geweest. Voor de analyse van
dergelijke studies hebben we eerder geleerd dat je de two sample t-test gebruikt. Je hebt namelijk
continue waarden en je vergelijkt twee onafhankelijke groepen. Stel je nu voor dat je
uitkomstvariabele y noemt en de groepclassificatie variabele x. Voor t-testen zou x dan twee
waarden kunnen aannemen, omdat er twee groepen zijn.

Er is echter ook een alternatieve manier om naar deze analyse te kijken, namelijk met het lineair
regressiemodel. Dit model wordt gebruikt om zo goed mogelijk een passende lijn door een
puntenwolk in een scatterplot te tekenen. Zo kan je aantonen dat twee factoren verband houden
met elkaar (dat ze correleren). Voor het lineair regressiemodel is het belangrijk dat de Y-variabele
continu is en de X-variabele ofwel continu ofwel categorieel. Neem bijvoorbeeld de twee continue
variabelen lengte en gewicht. De metingen van proefpersonen kan je uitzetten in een scatterplot.
De scatterplot kan vervolgens suggereren dat er een relatie is tussen lengte en gewicht. We
spreken van een lineaire relatie tussen x en y wanneer er een rechte lijn kan worden getrokken
door de punten.

De formule voor de rechte lijn in de scatterplot is Y = b0 + b1 x X

In de praktijk volgen de metingen echter geen optimale lijn. Ze zitten net onder of boven de lijn.
Wanneer meerdere personen dezelfde waarde van x hebben, dan hebben zij niet allemaal
dezelfde waarde van y. De spreiding rondom y heeft het gemiddelde 0 en een variantie. Bij een
specifieke waarde van x,
hoort een waarde van
y = b0 + b1 x X met een
variantie daaromheen:

Y = b0 + b1 x X + residu




1

,De optimale lineaire lijn zorgt ervoor dat de residuen, dit zijn de afstanden van de meting tot de
lijn, zo klein mogelijk zijn voor alle metingen. Een probleem hierbij is dat sommige residuen
negatief zijn en de andere residuen positief. In een berekening zouden de residuen elkaar dan
opheffen en lijkt het alsof er geen residuen zijn. Je moet daarom de residuen kwadrateren. Je kijkt
dan naar de som van de residuen in het kwadraat en die deel je vervolgens door de
vrijheidsgraden, n-2. Op deze manier kom je uit op de formule voor de variantie. De
vrijheidsgraden zijn n-2 omdat je door 2 punten altijd een perfecte lijn kan trekken en er dan dus
geen residu is. Voor een optimale lijn willen we de residuele variantie zo klein mogelijk krijgen. Dit
betekent dat we de afgeleide hiervan moeten nemen en die gelijk moeten stellen aan 0.
Deze methode voor het vinden van de optimale regressielijn heet de methode van ‘Least
Squares’. Met deze methode vind je dus de regressielijn.

Bij een regressieanalyse meten we hoe
dichtbij de observaties dus liggen bij de
perfecte rechte lijn die het lineaire verband
omschrijft. De correlatiecoëfficiënt (r) geeft
twee dingen aan:
- Of de correlatie positief of negatief is. Loopt
de lijn omhoog of omlaag.
- Hoe sterk de correlatie is. De
correlatiecoëfficiënt loopt van -1 tot +1. De
waarde geeft aan hoe dichtbij de punten bij
de lineaire lijn liggen. Indien r gelijk is aan -1
of +1, dan is er een perfect correlatie en
liggen al de punten op de lijn. Indien r=0,
dan is er geen lineaire correlatie.

De coëfficiënt van determinatie hangt samen
met de correlatiecoëfficiënt of r (pearson’s r).
De coëfficiënt van determinatie heet ook wel
de proportie verklaarde variantie. De
coëfficiënt van determinatie is het kwadraat
van de correlatiecoëfficiënt (r2). Als je de
relatie tussen leeftijd en salaris uitzet, dan
spelen naast leeftijd ook het soort werk, je
opleiding, je aantal werkuren, etc. een rol bij
het bepalen van je salaris. Niet alleen de
leeftijd die in jouw scatterplot is uitgezet. Stel
voor de relatie tussen tussen leeftijd en salaris
is de correlatiecoëfficiënt 0,6. De coëfficiënt
van determinatie is dan 0,36. Dit wil zeggen
dat 36% van de hoogte van het salaris wordt
bepaald door leeftijd. De rest dan door andere factoren. De coëfficiënt van determinatie zegt dus
welke fractie van de variatie verklaard kan woorden door de variatie in de onafhankelijke variabele
die jij onderzoekt. Je mag niet zeggen dat het ene het ander veróórzaakt voor een bepaalde
fractie. Het regressiemodel geeft namelijk aan dat factoren met elkaar samenhangen, maar het
model geeft nooit een oorzaak gevolgrelatie (causaliteit) weer.

De correlatiecoëfficiënt die hierboven is besproken geeft aan hoe goed de data rondom de rechte
lijn liggen. Het geeft echter niet aan wat de beste lijn is. De best passende rechte lijn kan
gevonden worden met het lineaire regressiemodel met de methode van least squares. De
regressielijn die je vindt geldt alleen voor de data in je onderzoek. Je hebt infertiele statistiek nodig
om de data ook toe te passen buiten je studie.

De gemiddelde waarde van Y bij een gegeven waarde van X, kan gevonden worden wanneer de
regressielijn bekend is. Hiervoor vul je de waarde van x in de formule van de regressielijn is. De
waarde is dan (x , b0+b1X).




2

, Stel u wilt nagaan of een speciaal dieet invloed heeft op het herstel van gewicht van personen die
een schildklierbehandeling hebben gehad. Deze personen moeten na de ingreep goed aankomen.
Er doen personen mee die net de schildklierbehandeling gehad hebben, deze groep wordt door
toeval verdeeld in twee groepen. De ene groep krijgt het speciale dieet, de andere groep het
standaard dieet. Je meet na een bepaalde tijd de gewichten en dit gewicht is de continue
uitkomstmaat Y.

X=0 als een persoon het standaarddieet krijgt
X=1 als de persoon het nieuwe dieet krijgt

Y = b0 + b1 * X + residu

Bij deelnemers in de standaardconditie was X=0. Dan krijgt je Y = b0 + residu
B0 = het gemiddelde van de personen in de controleconditie.

Voor deelnemers in de experimentele conditie met X=1 geldt het volgende:
Y = b0 + b1 + residu
b0 + b1 = het gemiddelde van de personen in de experimentele conditie
b1 = het verschil in de gemiddeldes (het effect van het dieet)
Ons dieet voor aankomen werkt indien b1 groter is dan 0.

Nu weten we dus hoe we een regressielijn op moeten stellen. Deze methode kan echter gebruikt
worden voor elke set data en dus moeten we nog criteria hebben die een goed passende lijn
onderscheiden van een lijn die niet goed bij de data past. De regressie-analyse toont een effect
aan indien b1 significant afwijkt van 0.

Het voordeel van een regressieanalyse is dat hij gemakkelijk is uit te breiden en daarom soms
handiger kan zijn dan een t-toets.

Stel er zijn nu twee nieuwe diëten: dieet A en dieet B. Dan hebben we nu dus drie groepen in ons
onderzoek. Dit wordt opgelost door twee dummy-variabelen te gebruiken. Dummy-variabele
betekent dat de variabele een waarde 0 of 1 kan aannemen.
Indien de persoon dieet A krijgt geldt Xa = 1
Indien de persoon dieet B krijgt geldt Xb = 1
Het controledieet, dus geen dieet, heeft de waarde Xa = 0 en Xb =0

De volledige regressieformule is dan: Y = b0 + b1 x Xa + b2 x Xb + residu

Voor een persoon in in de controleconditie heeft X de waarde 0. Dit levert de formule:
Y = b0 + residu en b0 is dan het gemiddelde van de personen in de controleconditie.

Voor een persoon op dieet A heeft Xa de waarde 1. Dit levert de formule:
Y = b0 + b1 + residu. b1 is dan het verschil in het gemiddelde van de personen in de
controleconditie en het gemiddelde van de personen met dieet A. Indien b1 significant afwijkt van
0, heeft het dieet dus effect.

Voor een persoon op dieet B heeft Xb de waarde 1. Dit levert de formule:
Y = b0 + b2 + residu. b2 is dan het verschil in het gemiddelde van de personen in de
controleconditie en het gemiddelde van de personen met dieet B. Indien b2 significant afwijkt van
0, heeft het dieet dus effect.

Om te kijken of de diëten iets doen vergelijken we de modellen
Y = b0 + b1 x X + b2 x Xb + residu
En
Y = b0* + residu*

Als de diëten iets doen, verklaren ze de variantie van Y en zal de residu variantie van het bovenste
model kleiner zijn dan de residu* van het onderste model. Het onderste model is als het ware een
soort 0 hypothese. De werkelijkheid zou volgens dit model verlopen als er geen effect is.


3
$6.62
Accede al documento completo:

100% de satisfacción garantizada
Inmediatamente disponible después del pago
Tanto en línea como en PDF
No estas atado a nada


Documento también disponible en un lote

Reseñas de compradores verificados

Se muestran los 2 comentarios
3 año hace

4 año hace

4.0

2 reseñas

5
1
4
0
3
1
2
0
1
0
Reseñas confiables sobre Stuvia

Todas las reseñas las realizan usuarios reales de Stuvia después de compras verificadas.

Conoce al vendedor

Seller avatar
Los indicadores de reputación están sujetos a la cantidad de artículos vendidos por una tarifa y las reseñas que ha recibido por esos documentos. Hay tres niveles: Bronce, Plata y Oro. Cuanto mayor reputación, más podrás confiar en la calidad del trabajo del vendedor.
GNKsamenvatting Radboud Universiteit Nijmegen
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
259
Miembro desde
8 año
Número de seguidores
219
Documentos
62
Última venta
1 semana hace

3.7

118 reseñas

5
18
4
52
3
46
2
1
1
1

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes