Samenvatting tentamen
Chapter 1
Paragraaf 1.1-data
Een dataset bevat informatie over cases. Voor elke case geeft de data waarden voor de
variabelen. Die variabelen beschrijven een kenmerk van de case. Een label is een speciale
variabele, die wordt gebruikt om de case te identificeren.
De sleutelkenmerken van een data set beantwoorden de vragen: Wie? Wat? Waarom?
1.2-displaying ditibutions with graphs
Categorische variabelenbar graph/ pie chart met daarin procenten/tellingen en een totaalgroep.
Kwantitatieve variabelen
- Weinig datastem-and-leafplot (mogelijkheid tot trimmen/splitten)
o Twee gerelateerde dingen vergelijkenback-to-back stemplot
- Veel datahistogram met daarin frequenties of percentages
Variabele(x-as) tegen de tijd(y-as) uitgezettimeplot
1.3-describing distributions with numbers
Meangemiddelde waarde ( x́ ¿ (geen resistente meting)
Mediaanmiddelste waarde (M) (wel resistent)
Modemeest voorkomende waarde (piek in een histogram)
Standaarddeviatiede spreiding rond het gemiddelde(σ) (geen resistente meting)
Resistente meting: geen invloed van afwijkende waarden
Robuuste meting: minimaliseert de invloed van afwijkende waarden
De five-number-summary bestaat uit: minimumQ1MediaanQ3maximum
Zet je dit in een grafiek, dan heb je een boxplot, de lijnen buiten de box zijn whiskers en staan
voor de minimum en maximum.
- Modified boxplotde whiskers gaan niet naar outliers, dat zijn losse punten
- Side-by-side boxplotom een variabele te vergelijken, meerdere boxplots
De interkwartielrange is IQR en is Q1-Q3.
1.4-density curves and normal distributions
Een density durve geeft het totaalbeeld van de data en negeert daarbij kleine afwijkingen. Hij ligt
altijd op of boven de x-as en de ruimte er onder is altijd exact 1.
Normal curves beschrijven normal distributionssymmetrisch, belvormig, unimodaal, hoogte x,
mean en median in het centrum. De normale verdeling met μ en σ noteren we als N(μ,σ)
De 68-95-99.7 regel geldt voor alle normale verdelingen:
68% van de observaties valt binnen σ van de mean μ
95% van de observaties valt binnen 2σ van de mean μ
99.7% van de observaties valt binnen 3σ van de mean μ
Een gestandaardiseerde waarde heeft een z-score, die ons vertelt hoeveel standaarddeviaties de
observatie van het gemiddelde ligt en in welke richting. De gestandaardiseerde waarden voor
elke distributie heeft altijd gemiddelde nul en standaarddeviatie 1.
Als een variabele X een normale verdeling N(μ,σ) heeft, dan heeft de gestandaardiseerde
variabele Z een standaard Normaal verdeling N(0,1).
Om te bepalen of een verdeling Normaal is, zet je het in een normal quantile plot.
1. Zet de datawaarden van klein naar groot
2. Bereken de z-waarden (normal scores)
3. Plot de gegevenspunten x tegen de normaalscores z. Dichtbij een lijnnormaal verdeeld
1
, Is de grafiek skewed, dan ligt de mean verder in de staart dan de median.
2
Chapter 1
Paragraaf 1.1-data
Een dataset bevat informatie over cases. Voor elke case geeft de data waarden voor de
variabelen. Die variabelen beschrijven een kenmerk van de case. Een label is een speciale
variabele, die wordt gebruikt om de case te identificeren.
De sleutelkenmerken van een data set beantwoorden de vragen: Wie? Wat? Waarom?
1.2-displaying ditibutions with graphs
Categorische variabelenbar graph/ pie chart met daarin procenten/tellingen en een totaalgroep.
Kwantitatieve variabelen
- Weinig datastem-and-leafplot (mogelijkheid tot trimmen/splitten)
o Twee gerelateerde dingen vergelijkenback-to-back stemplot
- Veel datahistogram met daarin frequenties of percentages
Variabele(x-as) tegen de tijd(y-as) uitgezettimeplot
1.3-describing distributions with numbers
Meangemiddelde waarde ( x́ ¿ (geen resistente meting)
Mediaanmiddelste waarde (M) (wel resistent)
Modemeest voorkomende waarde (piek in een histogram)
Standaarddeviatiede spreiding rond het gemiddelde(σ) (geen resistente meting)
Resistente meting: geen invloed van afwijkende waarden
Robuuste meting: minimaliseert de invloed van afwijkende waarden
De five-number-summary bestaat uit: minimumQ1MediaanQ3maximum
Zet je dit in een grafiek, dan heb je een boxplot, de lijnen buiten de box zijn whiskers en staan
voor de minimum en maximum.
- Modified boxplotde whiskers gaan niet naar outliers, dat zijn losse punten
- Side-by-side boxplotom een variabele te vergelijken, meerdere boxplots
De interkwartielrange is IQR en is Q1-Q3.
1.4-density curves and normal distributions
Een density durve geeft het totaalbeeld van de data en negeert daarbij kleine afwijkingen. Hij ligt
altijd op of boven de x-as en de ruimte er onder is altijd exact 1.
Normal curves beschrijven normal distributionssymmetrisch, belvormig, unimodaal, hoogte x,
mean en median in het centrum. De normale verdeling met μ en σ noteren we als N(μ,σ)
De 68-95-99.7 regel geldt voor alle normale verdelingen:
68% van de observaties valt binnen σ van de mean μ
95% van de observaties valt binnen 2σ van de mean μ
99.7% van de observaties valt binnen 3σ van de mean μ
Een gestandaardiseerde waarde heeft een z-score, die ons vertelt hoeveel standaarddeviaties de
observatie van het gemiddelde ligt en in welke richting. De gestandaardiseerde waarden voor
elke distributie heeft altijd gemiddelde nul en standaarddeviatie 1.
Als een variabele X een normale verdeling N(μ,σ) heeft, dan heeft de gestandaardiseerde
variabele Z een standaard Normaal verdeling N(0,1).
Om te bepalen of een verdeling Normaal is, zet je het in een normal quantile plot.
1. Zet de datawaarden van klein naar groot
2. Bereken de z-waarden (normal scores)
3. Plot de gegevenspunten x tegen de normaalscores z. Dichtbij een lijnnormaal verdeeld
1
, Is de grafiek skewed, dan ligt de mean verder in de staart dan de median.
2