100% de satisfacción garantizada Inmediatamente disponible después del pago Tanto en línea como en PDF No estas atado a nada 4.2 TrustPilot
logo-home
Resumen

Samenvatting hoofdstuk 6 en 7

Puntuación
-
Vendido
-
Páginas
36
Subido en
10-02-2025
Escrito en
2024/2025

Dit is een samenvatting van hoofdstuk 6 (Enkelvoudige lineaire regressie), en hoofdstuk 7 ( Variantie analyse) uit de inleiding tot de biostatistiek, gegeven door Lieven Clement in de 2de bachelor van de geologie

Institución
Grado











Ups! No podemos cargar tu documento ahora. Inténtalo de nuevo o contacta con soporte.

Escuela, estudio y materia

Institución
Estudio
Grado

Información del documento

Subido en
10 de febrero de 2025
Número de páginas
36
Escrito en
2024/2025
Tipo
Resumen

Temas

Vista previa del contenido

Hoofdstuk 6: Enkelvoudige lineaire regressie
Inleiding
Lineair model ➔ basis bouwblok v/d statistiek voor het modelleren van data
➔ we modeleren een continue variabele in functie van een andere continue variabele
we bouwen een model waarbij we het gemiddelde van variabele A modeleren aan de hand van de grootte van het
gemiddelde van variabele B

Als we dit doen voor 2 variabelen Door enkelvoudige lineaire regressie bekomt men een regressierechte
• Respons-variabele ➔ Nood aan 2 parameters:
• Predicter-variabele 1. Intercept Laat ons toe om na te gaan of 2
2. Helling variabelen met elkaar geassocieerd
zijn


Borstkanker dataset
In dit hoofdstuk zullen we een subset van de data gebruiken om de associatie te bestuderen tussen de genexpressie
van twee sleutelgenen bij borstkanker: de estrogeen receptor 1 (ESR1) gen, een belangrijke biomerker voor de
prognose van de patiënt, en het S100A8 gen dat een prominente rol speelt in de regulatie van inflammatie en
immuun respons.
link: https://youtu.be/aH0kNKVaLTA

Gebruikte dataset:




Er zal in dit hoofdstuk gewerkt worden met de expressiemetingen op de originele schaal

Data exploratie
Expressie S100A8 gen:




Voor meerdere variabelen ➔ de grafische scatterplot matrix voorstelling:

,In de scatterplot matrix zien we bijvoorbeeld dat er een positieve associatie lijkt te zijn tussen de leeftijd (age) en de
lymfeknoop status (node; geeft aan of de lymfeknopen al dan niet aangetast zijn en chirurgisch werden verwijderd,
node 0: niet aangetast, 1: aangetast). Daarnaast observeren we ook een indicatie voor een negatieve associatie
(dalende trend) tussen de ESR1 en S100A8 gen expressie.

De focus dit hoofdstuk: de relatie tussen de ESR1 en de S100A8 gen expressie
➔ de associatie tussen beide genen wordt het best weergegeven in een individuele scatterplot met smoother




Smoothers: kunnen trends visualiseren tussen variabelen
zonder vooraf veronderstellingen te doen over de vorm
van het verband
➔ zijn daarom heel erg nuttig bij data exploratie.



Model
Er is een relatie tussen de S100A8 (Y) en ESR1 (X)
expressie
➔ MAAR: De expressiemetingen voor het S100A8 gen zijn echter onderhevig aan ruis onder andere door biologische
variabiliteit en technische variabiliteit

Ruis: voor een bep. waarde X=x zal Y niet steeds dezelfde waarde aannemen
➔ in dit geval kan de S100A8gen expressie geschreven worden als: observatie = signaal + ruis.

Of, wiskundig geschreven: 𝑌𝑖 = 𝑔(𝑋𝑖 ) + 𝜖𝑖
waarbij 𝑌𝑖 de toevallige veranderlijke genexpressie van S100A8 voor i is
en 𝑋𝑖 de genexpressie van het ESR1 gen
en 𝜖𝑖 de foutterm de uitdrukt dat de observaties 𝑌𝑖 variëren

Het verband modelleert een conditioneel gemiddelde 𝐸[𝑌𝑖 |𝑋𝑖 = 𝑥] = 𝑔(𝑥)

Voorbeeld:

𝐸(𝑌|𝑋 = 2400) geeft de gemiddelde genexpressie aan van het S100A8 gen voor subjecten die een expressie hebben
van 2400 voor het ESR1 gen
➔ dit gemiddelde kan bekomen worden door van alle patiënten n de studiepopulatie, die een ESR1 expressie
hebben van 2400, de S100A8 expressie te meten en hier vervolgens het gemiddelde van te nemen
Dit gemiddelde = conditioneel gemiddelde

Conditioneel gemiddelde 𝑬(𝒀|𝑿 = 𝒙): een gemiddelde dat een gemiddelde uitkomst beschrijft, conditioneel op
het feit dat 𝑋 = 𝑥

Aangezien er geldt dat 𝐸[𝑌𝑖 |𝑋𝑖 = 𝑥] = 𝑔(𝑥) het gemiddelde beschrijft voor subjecten met een ESR1 expressieniveau
van x is de foutterm ϵi gemiddeld 0 voor deze subjecten: 𝐸[𝜖𝑖 |𝑋𝑖 = 𝑥] = 0.

,Lineaire regressie
Om accurate en interpreteerbare resultaten te bekomen, doet men bep. veronderstellingen over de structuur van
𝑔(𝑥)
➔ VAAK: 𝑔(𝑥) wordt gemodelleerd als een lineaire functie van ongekende parameters

In Rstudio:




Scatterplot voor S100A8 expressie in functie van de
ESR1 expressie met lineair model dat het verband tussen
beide genen samenvat




Veronderstelde lineaire regressiemodel: 𝐸(𝑌|𝑋 = 𝑥) = 𝛽0 + 𝛽1 𝑥 met:
𝛽0 en 𝛽1 de ongekende modelparameters 𝑬(𝒀|𝑿 = 𝒙) = 𝜷𝟎 + 𝜷𝟏 𝒙 = een statistisch model
𝐸(𝑌|𝑋 = 𝑥) de waarde op de Y-as ➔ maakt enkel een onderstelling over het gem. van
x de waarde op de X-as de S100A8 expressie
Het intercept 𝛽0 stelt het snijpunt met de Y-as voor en de helling 𝛽1 geeft de richtingscoëfficiënt van de rechte weer.

Deze naamgeving suggereert dat het bepaalde onderstellingen legt op de verdeling van de geobserveerde gegevens.
In het bijzonder onderstelt het dat de gemiddelde uitkomst lineair varieert in functie van één verklarende
variabele 𝑋.
➔ hierom wordt het ook wel een enkelvoudig lineair regressiemodel genoemd

Dit model kan elke meting 𝑌 op een foutterm 𝜖 beschrijven als een lineaire functie v/d verklarende variabele 𝑋 (=
𝒑𝒓𝒆𝒅𝒊𝒄𝒕𝒐𝒓)

𝑌 = 𝐸(𝑌|𝑋 = 𝑥) + 𝜖 = 𝛽0 + 𝛽1 𝑥 + 𝜖

Met 𝜖 de afwijking tussen de uitkomst en haar (conditioneel) gemiddelde waarde
= de onzekerheid in de responsvariabele.



Gezien het lineair regressiemodel onderstellingen doet over de verdeling van X en Y , kunnen deze onderstellingen
ook vals zijn. Later in dit hoofdstuk zullen we zien hoe deze onderstellingen geëvalueerd kunnen worden. Als echter
voldaan is aan de onderstellingen, laat dit een efficiënte data-analyse toe: alle observaties worden benut om te
leren over verwachte uitkomst bij X = x

, Het nut van lineaire regressiemodellen:

• Kan gebruikt worden voor predictie: als Y onbekend is, maar men X wel weet, dan kan met Y voorspellen
op basis van X
➔ E[𝑌|𝑋 = 𝑥] = 𝛽0 + 𝛽1 𝑥
• Kan gebruikt worden voor associatie: men kan aan de hand van lineaire regressiemodellen de biologische
relatie tussen X en Y beschrijven
➔ E[𝑌|𝑋 = 𝑥 + 𝛿] − E[𝑌|𝑋 = 𝑥] = [𝛽0 + 𝛽1 (𝑥 + 𝛿)] − (𝛽0 + 𝛽1 𝑥) = 𝛽1 𝛿
𝑣
(𝛽1 𝑖𝑠 ℎ𝑒𝑡 𝑣𝑒𝑟𝑠𝑐ℎ𝑖𝑙 𝑖𝑛 𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝑢𝑖𝑡𝑘𝑜𝑚𝑠𝑡 𝑡𝑢𝑠𝑠𝑒𝑛 𝑠𝑢𝑏𝑗𝑒𝑐𝑡𝑒𝑛 𝑑𝑖𝑒 1 𝑒𝑒𝑛ℎ𝑒𝑖𝑑 𝑣𝑒𝑟𝑠𝑐ℎ𝑖𝑙𝑙𝑒𝑛 𝑖𝑛 𝑑𝑒 𝑔𝑒𝑛𝑒𝑥𝑝𝑟𝑒𝑠𝑠𝑖𝑒 𝐸𝑆𝑅1 𝑔𝑒𝑛)



Parameterschatting
𝛽0 𝑒𝑛 𝛽1 zijn 2 onbekenden
➔ als de volledige studiepopulatie geobserveerd wordt, kunnen deze parameters exact bepaald worden

In werkelijkheid er wordt slechts een steekproef onderzocht en zullen de parameters geschat moeten worden.

Deze schatting gebeurt door naar de lijn te zoeken die “het best past” bij de gegevens.
➔ doel: bij een gegeven waarde 𝑥𝑖 voor het i-de subject het punt op de regressielijn (𝑥𝑖 , 𝛽0 + 𝛽1 𝑥𝑖 ) zo weinig
mogelijk laten afwijken van de overeenkomstige observatie (𝑥𝑖 , 𝑦𝑖 )

Dit wordt gerealiseerd door deze waarden voor 𝛽0 𝑒𝑛 𝛽1 te kiezen die de som van die kwadratische afstanden
tussen de voorspelde en geobserveerde punten zo klein mogelijk maakt
𝑛 𝑛
➔ ∑𝑖=1(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2 = ∑𝑖=1 𝑒𝑖2

Met 𝑒𝑖 de verticale afstanden v/d observaties tot de gefitte regressierechte = residu


Rode lijn - lineair model
Zwart gestreepte lijnen - residuen




• De kleinste kwadratenlijn: de best passende rechte door de puntenwolk
➔ wordt door deze som bepaalt
“De kleinste-kwadratenmethode in haar eenvoudigste, oorspronkelijke vorm is een methode om bij een gegeven
verzameling punten in het xy-vlak, die verondersteld worden (min of meer) op een rechte lijn te liggen, de best
passende lijn te bepalen.”
• De kleinste kwadratenschatting: de overeenkomstige waarden/schattingen 𝛽 ̂0 voor 𝛽0 en 𝛽 ̂1 voor 𝛽1

Er geldt:

∑𝑛𝑖=1(𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥) cor(𝑥, 𝑦)𝑠𝑦
̂1 =
𝛽 𝑛 =
∑𝑖=1(𝑥𝑖 − 𝑥𝑖 )2 𝑠𝑥

En

̂0 = 𝑦 − 𝛽
𝛽 ̂1 𝑥
$8.57
Accede al documento completo:

100% de satisfacción garantizada
Inmediatamente disponible después del pago
Tanto en línea como en PDF
No estas atado a nada

Conoce al vendedor
Seller avatar
manartahri
5.0
(1)

Documento también disponible en un lote

Conoce al vendedor

Seller avatar
manartahri Universiteit Gent
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
2
Miembro desde
1 año
Número de seguidores
2
Documentos
57
Última venta
11 meses hace
Samenvattingen uit de richting geologie

Hallo! Ik studeer momenteel geologie aan de UGent, en verkoop hier mijn samenvattingen en oplossingen van examenvragen (ook altijd handig). Ik hoop dat je er iets aan hebt en veel succes met het studeren!

5.0

1 reseñas

5
1
4
0
3
0
2
0
1
0

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes