100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4,6 TrustPilot
logo-home
Summary

Samenvatting Statistics 2

Rating
-
Sold
-
Pages
29
Uploaded on
17-04-2025
Written in
2021/2022

Uitgebreide samenvatting in het nederlands voor het vak Statistics 2 voor de bachelor international business

Institution
Course










Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
No
Which chapters are summarized?
Unknown
Uploaded on
April 17, 2025
Number of pages
29
Written in
2021/2022
Type
Summary

Subjects

Content preview

Lecture 1
Wanneer we naar data kijken kunnen we deze opdelen in twee soorten data typen:
• Nonmetric / qualitative data = (yes/no) is een onderdeel aanwezig die we zoeken?
o Is het individu een man?
o Is het individu een vegetarier?
• Metric / quantitative data = (… meter) het quantificeren van een onderdeel.
o Hoe lang is het individu?
o Hoe tevreden is het individu?

Gelinkt aan deze typen soorten data zijn ook weer meet maten gelinkt, dit zijn er in totaal
vier, twee per type data.
Qualitative data, Categorial/ discrete heeft over het algemeen de volgende schalen, deze
hebben over het algemeen geen vaste afstand tussen schalen:
• Nominal scale (nummer inplaats van labels) = nummers geven een categorie aan
maar er is geen vaste volgorde
• Ordinal scale (ranking) = de volgorde van de nummers is belangrijk maar het interval
tussen de nummers geeft niks aan
Kijkend naar Quantitative data, continuous zien we dat de volgende schalen worden
gebruikt, de afstanden tussen de punten zijn constant:
• Interval scale = de volgorde van de nummers is belangrijk en het interval tussen de
nummers is belangrijk en er is een nul punt waardoor men + en – heeft, geen
meaningful zero point.
• Ratio scale = volgorde van de nummers is belangrijk, interval is vast en er is een vast
nul punt met een meaningful zero point. Kan ook cijfer zijn van hoeveel iets gedaan
of uitgegeven bijvoorbeeld.

Je kan de typen data als volgt uit delen visueel:




Het is belangrijk om een bepaalde schaal aan te wijzen waarop de data getest wordt omdat
dit de vorm van analyse en testing bepaald.
Het probleem wat altijd naar boven komt is dat wanneer men uiteindelijk de test gaat
uitvoeren en missende waarden zijn in de toetsing, de vraag is dan wat men hiermee moet
doen wanneer men analyseert. De analyse van de missende waarde begint door te bepalen
of de informatie met intentie niet is gegeven of dan men het per ongelijk niet heeft

,ingevuld. Om met missing data om te gaan maken we gebruik van de missing value analysis,
(Analyse missing data -> analyse -> missing value analysis -> vul quantitative values -
> OK -> waarde onder 10% hoeft niet mee genomen te worden. 10% < X < 20% =
vervangen met gemiddelde waarde. X>20% verwijder observatie)(
https://www.ibm.com/docs/en/spss-statistics/24.0.0?topic=option-missing-value-
analysis ) het doel hierbij is om nog steeds patronen te kunnen ontdekken ook al missen er
data delen. Missende data kan zorgen voor een reductie van de sample size wat weer kan
zorgen voor vertroebeling van de resultaten. Missende data kunnen we opdelen in twee
soorten groepen:
• Missing completely at random (MCAR) = voor elke missende waarde van een
response is deze niet gelinkt aan een andere variabele.
• Missing at random (MAR) = de missende waarde in de responses kan gelinkt
woorden aan een andere variabele. (IQ-waarde niet ingevuld bij jongelui)

Nu we de categorieën weten van missende data kunnen we kijken naar hoe de missing
value analysis is opgebouwd. De analyse is als volgt:
1. Check in elke variable:
a. Het percentage van missende waarden
b. Het aantal van extremen en outliers in de verdeling van variabelen
2. Check in elke observatie:
a. Het percentage van missende waarden
b. Het aantal van extremen en outliers in de verdeling van observaties
3. Hoe vaak komt het missende patroon voor
a. De frequentie kan causaliteit betekenen
b. Welke cases laten het missende patroon zien

De vraag is dan alleen nog hoe men met die missende waarde om moet gaan, dit kan op drie
manieren:
• Ignore = men past dit toe wanneer het in minder dan 10% van de cases, variabelen
voor komt of als er geen patroon is.
• Deletion = het verwijderen van meetingen kan op twee manieren
o Listwise = het verwijderen van hele observaties. De voordelen hiervan zijn
dat je een complete dataset houdt. Een nadeel is dat men een verminderde
sample size heeft waardoor de betrouwbaarheid van het onderzoek achteruit
gaat.
o Pairwise = verwijder incomplete cases per analyse (verwijder bij berekening).
Een voordeel van deze methode is dat men dezelfde sample size houdt voor
sommigen. Het nadeel is dat er dus voor andere analyses een andere sample
size is en dit lijdt weer tot inconsistentie van sample sizes.
• Imputation / replace = het vervangen van geen data voor andere algemene data
zoals:
o Mean = gemiddelde van alle data, het probleem wat kan ontstaan is dat men
bij een te hoge frequentie van missende data de variabiliteit naar beneden
trekt.
o Hot deck imputation = gebruik een observatie uit de steekproef die als
vergelijkbaar wordt beschouwd.

, o Cold deck imputation = gebruik een observatie van een externe
gegevensbron die als vergelijkbaar wordt beschouwd.

De rules of thumb die men kan gebruiken om met missing data om te gaan is alsvolgt:
• < 10%: Ignore or use any imputation method
• 10-20 %: Hot deck imputation (assuming MCAR)
• >20%: Delete

Examinging data
Voor dat men met de data verzamelt aan de slag gaat en gaat evalueren met een bepaalde
manier moet men de data leren te begrijpen. Om de data beter te leren begrijpen en te zien
welke analyse men moet toepassen gebruiken we de volgende vragen:
• What are the characteristics of the data?
• Is there a common behaviour to all the data?
• Is there any missing data?
• Is there an outlier?
• Which analysis method(s) can we use?

Als men zichzelf die vragen heeft gesteld zie je dat je voor qualitative data over het
algemeen de volgende onderdelen berekend en grafische modellen ontwikkeld:
• Frequency table
• Minimum, maximum
• Range
• Mode
• Bar chart
• Pie chart

Voor quantitative data zie je dat de volgende onderdelen worden berekend en grafische
modellen worden gemaakt:
• Mean
• Mode
• Median
• Range
• Interquartile
• Standard deviation
• Variance
• Skewness
• Kurtosis
• Box plot
• Scatterplot
• Histogram

Je ziet dus dat bij qunatitative data men gebruik maakt van de mean, omdat deze erg
gevoelig is voor outliers moet men hiermee rekening houden en misschien verwijderen als
men analyseert met het regression model. Verder moet men bij quantitative data opletten
dat bij sommige modelen men uitgaat van een normal distribution en men dus wel een data
$13.26
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Get to know the seller
Seller avatar
urgabonsel

Get to know the seller

Seller avatar
urgabonsel Erasmus Universiteit Rotterdam
Follow You need to be logged in order to follow users or courses
Sold
1
Member since
10 months
Number of followers
0
Documents
26
Last sold
2 weeks ago

0.0

0 reviews

5
0
4
0
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their exams and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can immediately select a different document that better matches what you need.

Pay how you prefer, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card or EFT and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions