Quantitative methods
Response variable (Y)
Dependent variable
Explanatory variable (X)
Independent variable
Nominal
Data kan worden gecategoriseerd, zonder duidelijke rangorde
- Gender
Ordinaal
Data kan worden gecategoriseerd, met duidelijke rangorde
- Opleidingsniveau
Interval
Data kan worden gecategoriseerd, met rangorde, en de afstanden tussen de intervallen zijn
even groot.
- Temperatuur
Ratio
Data kan worden gecategoriseerd, er is een rangorde, de afstanden tussen de intervallen zijn
even groot, en er is een betekenisvol nulpunt.
- Leeftijd
Outliers
Observations that are further away than 3 standard deviations from the mean.
- How do they impact your outcomes?
o Compare regression outcomes with and without outliers
o SPSS: DFBeta, DFfit
o Als Cooks distance >1: outlier is influencial.
,Linear regression
Y= B0 + B1 *Xi + Error
B0= constant
B1= coefficients (kijken bij unstandardized)
Xi= explanatory variables
Y= 4,764+0,162*verstedelijkheidsgraad- 0,012*leeftijd +0,030* inkomen + error
R2= how much of the variation is explained by the model
- Between 0 and 1
- Als het 100% is, dan liggen alle punten op de regression line.
Model assumptions
1. The sample consists of independent observations.
o No clusters which influence each other.
2. A linear model is suitable.
o We need to check if the relationship between dependent variable and
independent variable is linear.
3. The variance of the residuals is equal for all possible values of the independent variables
(constant variance/ homoscedasticity)
4. The residuals are normally distributed.
Test for multicollinearity
- When the correlation between two (or more) explanatory variables is too high
- Problem with multicollinearity:
o Standard errors of regression coefficients increase (onbetrouwbare coeficienten)
o R2 wordt Kleiner
o Interpretation of individual explanatory variables becomes impossible.
- Detect multicollinearity
, o VIR> 10 or tolerance <0.1 serious problem
o VIR > 1 or tolerance <0.2 may be a problem
Dummy variable
To include qualitive variables in regression. You add a constant.
Bijvoorbeeld: mannen en vrouwen
- Man = 1 (B+Y) +BXi + Error
- Vrouw = 0 B+BXi + Error
Dichotomous
Twee categorien: ja/nee, man/vrouw
Interaction variables
Houden er rekening mee dat toename in een toename in independent variabele niet dezelfde
effecten hebben op de twee groepen. de lijnen lopen dus niet parralel.
What to do in case of non-linearity?
1. Add a non-linear term
a. Quadratic regression model
2. Transformation of variables
a. Logarithm, square root
3. Others
The fixed effects model
- Take out the ‘between group effect’.
o So you can study the true effect of an independent variable on a dependent
variable.
o Je pakt 1 groep als reference group, en je maakt dummies voor de andere
groepen. Hierdoor blijft de ‘within group variation’
o Je kan alleen vergelijken met de reference category.
Response variable (Y)
Dependent variable
Explanatory variable (X)
Independent variable
Nominal
Data kan worden gecategoriseerd, zonder duidelijke rangorde
- Gender
Ordinaal
Data kan worden gecategoriseerd, met duidelijke rangorde
- Opleidingsniveau
Interval
Data kan worden gecategoriseerd, met rangorde, en de afstanden tussen de intervallen zijn
even groot.
- Temperatuur
Ratio
Data kan worden gecategoriseerd, er is een rangorde, de afstanden tussen de intervallen zijn
even groot, en er is een betekenisvol nulpunt.
- Leeftijd
Outliers
Observations that are further away than 3 standard deviations from the mean.
- How do they impact your outcomes?
o Compare regression outcomes with and without outliers
o SPSS: DFBeta, DFfit
o Als Cooks distance >1: outlier is influencial.
,Linear regression
Y= B0 + B1 *Xi + Error
B0= constant
B1= coefficients (kijken bij unstandardized)
Xi= explanatory variables
Y= 4,764+0,162*verstedelijkheidsgraad- 0,012*leeftijd +0,030* inkomen + error
R2= how much of the variation is explained by the model
- Between 0 and 1
- Als het 100% is, dan liggen alle punten op de regression line.
Model assumptions
1. The sample consists of independent observations.
o No clusters which influence each other.
2. A linear model is suitable.
o We need to check if the relationship between dependent variable and
independent variable is linear.
3. The variance of the residuals is equal for all possible values of the independent variables
(constant variance/ homoscedasticity)
4. The residuals are normally distributed.
Test for multicollinearity
- When the correlation between two (or more) explanatory variables is too high
- Problem with multicollinearity:
o Standard errors of regression coefficients increase (onbetrouwbare coeficienten)
o R2 wordt Kleiner
o Interpretation of individual explanatory variables becomes impossible.
- Detect multicollinearity
, o VIR> 10 or tolerance <0.1 serious problem
o VIR > 1 or tolerance <0.2 may be a problem
Dummy variable
To include qualitive variables in regression. You add a constant.
Bijvoorbeeld: mannen en vrouwen
- Man = 1 (B+Y) +BXi + Error
- Vrouw = 0 B+BXi + Error
Dichotomous
Twee categorien: ja/nee, man/vrouw
Interaction variables
Houden er rekening mee dat toename in een toename in independent variabele niet dezelfde
effecten hebben op de twee groepen. de lijnen lopen dus niet parralel.
What to do in case of non-linearity?
1. Add a non-linear term
a. Quadratic regression model
2. Transformation of variables
a. Logarithm, square root
3. Others
The fixed effects model
- Take out the ‘between group effect’.
o So you can study the true effect of an independent variable on a dependent
variable.
o Je pakt 1 groep als reference group, en je maakt dummies voor de andere
groepen. Hierdoor blijft de ‘within group variation’
o Je kan alleen vergelijken met de reference category.