100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

Summary Multivariate Statistics

Beoordeling
-
Verkocht
1
Pagina's
15
Geüpload op
28-01-2022
Geschreven in
2021/2022

Samenvatting van alle colleges










Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
28 januari 2022
Aantal pagina's
15
Geschreven in
2021/2022
Type
Samenvatting

Onderwerpen

Voorbeeld van de inhoud

Multivariate statistics – 1ZM31 – Q1 2021/2022
Assignment 1
Data exploration
What is a multivariate data set?  several variables are
measured for each unit of analysis
Notation: q variables q>1, n units of analysis

The data fit in a rectangle, rows/individuals can be shuffled
and columns/variables can be shuffled

Nonmetric data
Nominal scales: no ordering
- Dummy variables 0/1: e.g. EU citizen yes/no
- Categorical variables
o E.g. nonbinary/female/male
o E.g. country,
transportation (bike,
foot)
Ordinal scales: ordering
- E.g. education: primary
school, high school,
university, PhD

Metric data
Interval scales: no meaningful absolute zero
- E.g. temperature: 10C is not twice as hot
as 5C
Ratio scales: meaningful absolute zero
- E.g. the height of a person, the number of
employees

Data visualization
Boxplot: best to visualize metric data

Scatterplot: combined visualization of two metric
data variables
In this graph
- No correlation (check if this is significant)
- No causal relationship




1

, Why we care about outliers: an outlier is a data point that is very different from other data
points
Therefore
1. Outliers might indicate an error in
the data collection, or might be
unrepresentative of the population
(substantive concern)
2. Outliers have a disproportionate
influence on statistical analyses
(practical concern)
Results of the factor analysis are stable,
whether or not we exclude data points
with highest values of the MD
Multivariate outliers: Mahalanobis
distance (MD)
- Identify the center of the data
- Draw ellipse around the center of the data
- Each data point on the same ellipse has the same distance to the center
- A higher MD tells you that the data point is further away from the center of the data
- If the data is normally distributed then we know the distribution of the Mahalanobis
Distance




What if the data are not normally distributed?
- We cannot use the rule-of-thumb
- Outliers still have a large Mahalanobis Distance
- Go look into the data whether this is a valid data point
o Error in the data?
o If no error in the data, influence on the results?

Normality
QQ-plot: plot the observed quantiles against the theoretical
quantiles of the normal distribution
- If the data are normally distributed, then the sample
quantiles are close to the theoretical quantiles
- Look whether the data points are close to the 45-degree
line
- If they are not  do a logarithmic transformation




2
€5,49
Krijg toegang tot het volledige document:

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Maak kennis met de verkoper
Seller avatar
daniekklijn
3,0
(2)

Maak kennis met de verkoper

Seller avatar
daniekklijn Technische Universiteit Eindhoven
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
8
Lid sinds
6 jaar
Aantal volgers
6
Documenten
14
Laatst verkocht
1 jaar geleden

3,0

2 beoordelingen

5
1
4
0
3
0
2
0
1
1

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen