Statistiek Week 2
Boek notes:
Sample: een klein gedeelte van de populatie om daar data vandaan te halen. Hoe groter de sample,
hoe waarschijnlijker het is dat het de gehele populatie weerspiegelt.
Variables: meetbare constructies die variëren bij entiteiten in de sample. Dus bijv. niet iedereen
heeft blond haar.
Parameters: niet meetbaar en meestal constanten bijv. mediaan en gemiddelde. Het vertelt ons iets
over de relatie tussen de uitkomst en de voorspeller bij een statistisch model.
Outcome = ( b 0+ b1 x 1 i ¿
B1 (in het rood) gaat over de parameter.
X1i gaat over de score van de entiteit op een bepaalde variabele.
B0 is het gemiddelde van de uitkomst. Deze kan hypothetisch zijn, omdat bijv. er niet 2.6 vrienden
kunnen zijn in de realiteit. Dit wordt gebruikt om ook de waarde in een populatie te schatten.
¿
( b^ 0 ) geeft aan dat het om een schatting gaat
2.6 E is for estimating parameters
Je wilt zo weinig mogelijk fouten hebben in je voorspelling van data. Dus probeer een zo klein
mogelijke sum of squared errors te maken.
2.7 S is for standard error
Sampling variation: er kan variatie optreden tussen verschillende samples, omdat je met
verschillende entiteiten te maken hebt die verschillende keuzes maken gebaseerd op verschillende
normen en waarden.
Sampling distribution: een frequentie distributie van de samples van een populatie.
Alle statistische modellen kunnen worden uitgedrukt met:
Uitkomst i = model + fout i
i is bijv. persoon in de enquête.
We kunnen ook het gemiddelde als model zien.
- Gemiddelde is het punt waarop de som van de gekwadrateerde afwijkingen minimaal is.
Bijv. gemiddelde bevolkingsomvang van Europese landen.
Bevolkingsomvang i = x +ε i (x met streepje geeft gemiddelde/ ei is fout)
Bevolkingsomvang i = 18.151.600 + ε i
Boek notes:
Sample: een klein gedeelte van de populatie om daar data vandaan te halen. Hoe groter de sample,
hoe waarschijnlijker het is dat het de gehele populatie weerspiegelt.
Variables: meetbare constructies die variëren bij entiteiten in de sample. Dus bijv. niet iedereen
heeft blond haar.
Parameters: niet meetbaar en meestal constanten bijv. mediaan en gemiddelde. Het vertelt ons iets
over de relatie tussen de uitkomst en de voorspeller bij een statistisch model.
Outcome = ( b 0+ b1 x 1 i ¿
B1 (in het rood) gaat over de parameter.
X1i gaat over de score van de entiteit op een bepaalde variabele.
B0 is het gemiddelde van de uitkomst. Deze kan hypothetisch zijn, omdat bijv. er niet 2.6 vrienden
kunnen zijn in de realiteit. Dit wordt gebruikt om ook de waarde in een populatie te schatten.
¿
( b^ 0 ) geeft aan dat het om een schatting gaat
2.6 E is for estimating parameters
Je wilt zo weinig mogelijk fouten hebben in je voorspelling van data. Dus probeer een zo klein
mogelijke sum of squared errors te maken.
2.7 S is for standard error
Sampling variation: er kan variatie optreden tussen verschillende samples, omdat je met
verschillende entiteiten te maken hebt die verschillende keuzes maken gebaseerd op verschillende
normen en waarden.
Sampling distribution: een frequentie distributie van de samples van een populatie.
Alle statistische modellen kunnen worden uitgedrukt met:
Uitkomst i = model + fout i
i is bijv. persoon in de enquête.
We kunnen ook het gemiddelde als model zien.
- Gemiddelde is het punt waarop de som van de gekwadrateerde afwijkingen minimaal is.
Bijv. gemiddelde bevolkingsomvang van Europese landen.
Bevolkingsomvang i = x +ε i (x met streepje geeft gemiddelde/ ei is fout)
Bevolkingsomvang i = 18.151.600 + ε i