PRACTICUM 1.
Oefening 1.
1. Open file
o Aantal observaties en variabelen
o …
2. Importeer
o Properties: labels wijzigen =>
o Naam: wat STATA onthoudt bij het uitvoeren van een analyse
hooflettergevoelig
o Label: wordt niet in de analyse opgenomen niet
hoofdlettergevoelig
o Misleidende of extreme variabelen proberen te achterhalen adhv
statistische analyse => summarize ..
o Standaarddeviatie = captatie van de observaties hoe > hoe > de
variantie tussen de variabelen
o Codebook: idem summarize maar dan met percentielen weergegeven
o Describe:
o Grafieken (zie later)
3. Voor een lineaire regressie uit waarbij je nagaat wat de impact is van INC
Hoe ziet dit model eruit?
, o Vgl. y=30,71 (intercept) + 0,81X1 + residu’s=afstand tussen de
punten en de regressielijn
Is dit een goed model
o R²: hoeveel variantie kan verklaard worden door het model => hoe
> hoe beter de variabele verklaard zijn
Interpreteer
Extreme observaties?
4. Voeg de variabele WEALTH toe
Adj. R² is beter geworden dus model is beter => als er een variabele wordt
toegevoegd altijd naar de ADJ R² kijken
5. Wat zou er gebeuren met de resultaten indien 1 of meer van de var. niet gemeten
zijn in 1000
Y=30,71 * 0,00081X1
6. Maak een to-do file => selecteren => rechtermuis => send to do file editor
Oefening 2.
1. Importeer
2. Beschrijf je data
kijk bij MIN en MAX en zo zie je categorische variabele
Histogram?
, Dataset met weinig observaties => histogram met een korrel zout
nemen
3. Lineaire regressie
Y=5956,41 – 33,5288*RANK
R²= laag maar R=11,76% => geen goed model => wordt bevestigd door
scatterplot
Rank: 1 tot 2 => van 1 naar 2 daalt het aantal APPLICATIONS => 1 is dus
het hoogst
Voeg SIZE toe en model wordt beter => adjusted R²=68,13%
Y = 1909 + 2,10 SIZE -37,45 RANK
Oefening 3.
Oefening 1.
1. Open file
o Aantal observaties en variabelen
o …
2. Importeer
o Properties: labels wijzigen =>
o Naam: wat STATA onthoudt bij het uitvoeren van een analyse
hooflettergevoelig
o Label: wordt niet in de analyse opgenomen niet
hoofdlettergevoelig
o Misleidende of extreme variabelen proberen te achterhalen adhv
statistische analyse => summarize ..
o Standaarddeviatie = captatie van de observaties hoe > hoe > de
variantie tussen de variabelen
o Codebook: idem summarize maar dan met percentielen weergegeven
o Describe:
o Grafieken (zie later)
3. Voor een lineaire regressie uit waarbij je nagaat wat de impact is van INC
Hoe ziet dit model eruit?
, o Vgl. y=30,71 (intercept) + 0,81X1 + residu’s=afstand tussen de
punten en de regressielijn
Is dit een goed model
o R²: hoeveel variantie kan verklaard worden door het model => hoe
> hoe beter de variabele verklaard zijn
Interpreteer
Extreme observaties?
4. Voeg de variabele WEALTH toe
Adj. R² is beter geworden dus model is beter => als er een variabele wordt
toegevoegd altijd naar de ADJ R² kijken
5. Wat zou er gebeuren met de resultaten indien 1 of meer van de var. niet gemeten
zijn in 1000
Y=30,71 * 0,00081X1
6. Maak een to-do file => selecteren => rechtermuis => send to do file editor
Oefening 2.
1. Importeer
2. Beschrijf je data
kijk bij MIN en MAX en zo zie je categorische variabele
Histogram?
, Dataset met weinig observaties => histogram met een korrel zout
nemen
3. Lineaire regressie
Y=5956,41 – 33,5288*RANK
R²= laag maar R=11,76% => geen goed model => wordt bevestigd door
scatterplot
Rank: 1 tot 2 => van 1 naar 2 daalt het aantal APPLICATIONS => 1 is dus
het hoogst
Voeg SIZE toe en model wordt beter => adjusted R²=68,13%
Y = 1909 + 2,10 SIZE -37,45 RANK
Oefening 3.