100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Zusammenfassung Multivariate Data Analysis Prof. Sousa-Poza WS 2017/2018

Rating
-
Sold
-
Pages
23
Uploaded on
02-12-2018
Written in
2017/2018

Zusammenfassung der Grundlagenvorlesung Multivariate Data Analysis bei Prof. Sousa-Poza aus dem Wintersemester 2017/2018

Institution
Course










Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
Yes
Uploaded on
December 2, 2018
Number of pages
23
Written in
2017/2018
Type
Summary

Subjects

Content preview

Einführung:
Measurement Scales:
Nicht-metrisch
Nominal: Die Größe der Zahl hängt nicht mit der Menge des gemessenen Merkmals
zusammen  Ausprägungen sind Namen oder Kategorien  können nur nach dem
Kriterium „gleich“ oder „ungleich“ geordnet werden  keine natürliche Rangfolge möglich
(z.B. Geschlecht)
Ordinal: größere Zahlen zeigen mehr (oder weniger) der gemessenen Eigenschaf ann aber
nicht wie viel (oder weniger) (z.B. Schulnoten)  es ist eine Rangfolge möglichn aber die
Abstände zwischen den Merkmalsausprägungen sind nicht interpreterbar  Unterschiede
zwischen den Werten haben keine Bedeutung/sind nicht vergleichbar
Metrisch
Interval: enthält ordinale Eigenschafen und die Abstände zwischen den
Merkmalsausprägungen sind interpreterbar/haben eine Bedeutung und sind vergleichbar
(e.g. Fahrenheit und Celsius Skala)  es gibt keinen natürlichen Nullpunkt

Rato: enthält Eigenschaten einer Intervallskala und es gibt einen natürlichen Nullpunkt (z.B.
Gewicht in kg)
Messfehler
 Gradn zu dem die beobachteten Werte nicht repräsentatv für den “wahren” Wert sind
 verzerrt beobachtete Beziehungen und macht multvariate Techniken weniger
aussagekräfig
Gründe:
 Ungenauigkeit der Messung
 Unfähigkeit der Befragten genaue Informatonen zu liefern
 Fehler in der Dateneingabe

Wichtge Merkmale der Messung:
Validity/Gültgkeit = Grad zu dem eine Messung genau das darstelltn was sie darstellen soll
Reliability/Zuverlässigkeit = Gradn zu dem der beobachtete Wert den “wahren” Wert misst
und somit fehlerfrei ist

H0 ist richtg H0 ist falsch
H0 kann nicht abgelehnt 1-α β- Fehler
werden richtge Entscheidung Fehler 2.Art
H0 ablehnen α- Fehler 1-β
Fehler 1.Art Power

,Fehler 1.Art (α Fehler): Wahrscheinlichkeit die Nullhypothese abzulehnenn obwohl sie richtg
ist  die Nullhypothese wird verworfenn d.h. es wird von einem statstsch signifkanten
Unterschied ausgegangenn obwohl in der Realität kein Unterschied besteht
Fehler 2.Art (β Fehler): Wahrscheinlichkeit die Nullhypothese nicht abzulehnenn obwohl sie
falsch ist  die Nullhypothese wird nicht verworfenn d.h. es kann nicht von einem statstsch
signifkanten Unterschied ausgegangen werdenn obwohl in der Realität ein Unterschied
besteht
Power (1-β): die Wahrscheinlichkeitn die Nullhypothese zu verwerfenn wenn sie falsch ist
 Wahrscheinlichkeit der korrekten Ablehnung der Nullhypothese  Wahrscheinlichkeitn
dass statstsche Signifkanz angezeigt wirdn wenn sie vorhanden ist
Fehler 1.Art und Fehler 2.Art sind umgekehrt proportonaln d.h. der Fehler 1.Art wird
restriktvern wenn die Wahrscheinlichkeit für einen Fehler 2.Art zunimmt
Eine Reduzierung des Fehlers 1.Art reduziert die power eines statstschen Tests
Power wird von 3 Faktoren beeinfusst:
1. Effekt Größe: das tatsächliche Ausmaß des interessierenden Effekts (z.B. Unterschied des
Durchschnitseinkommens zwischen Mann und Frau)
2. Alpha (α): Wenn alpha kleiner istn nimmt die power ab (typischerweise α = 0n05)
3. Stchprobengröße: Wenn die Stchprobengröße zunimmtn erhöht sich die power. Bei sehr
großen Stchproben können sogar sehr kleine Effekte statstsch signifkant seinn weshalb es
zu dem Problem der praktschen Signifkanz gegenüber der statstschen Signifkanz kommt
 strengere Signifkanzniveaus (z.B. 0n01 anstelle von 0n05) erfordern größere Stchprobenn
um das gewünschte Niveau an power zu erreichen
 power kann erhöht werdenn indem ein weniger strenges Signifkanzniveau gewählt wird
(z.B. 0n1 anstelle von 0n05)
 kleinere Effektgrößen erfordern immer größere Stchprobenn um die gewünschte power
zu erreichen
Statstcal vs. practcal signifcance:
There is statstcal signifcancen an arbitrary limit whereby an observed difference could
reasonably be assumed to be due to some factor other than pure chance.
Then there is practcal signifcancen an arbitrary limit whereby at observed difference is of
some practcal use in the real world.
 Mit größeren Stchproben nimmt die power eines Tests zun d.h. es ist wahrscheinlicher
das statstsche Signifkanz beobachtet wird. Die praktsche Signifkanz muss sich jedoch nicht
ändern

, Examining your data:
Missing Data: informaton not available for a subject (or case) about whom other
informaton is available. Typically occurs when respondent fails to answer one or more
questons in a survey.
 fehlende Daten reduzieren die für die Analyse verfügbare Stchprobengröße
 fehlende Daten können Ergebnisse verzerren

In general: 10 % random missings and 5 variables  only 40 % of sample remains if you want
to use all variables in a regression!!

 Missing data under 10% for an individual case or observaton can generally be ignoredn
except when the missing data occurs in a specifc nonrandom fashion (e.g. concentraton i a
specifc set of questonsn atriton at the end of the questonnairen etc.)
 the number of cases with no missing data must be sufcient for the selected analysis
technique if replacement values will not be substtuted (imputed) for the missing data
Missing at Random (MAR):
Missing values of Y depend on Xn but not on Y  the observed Y values represent a random
sample of the actual Y values for each value of Xn but the observed data for Y do not
necessarily represent a truly random sample of all Y values
Missing completely at Random (MCAR):
Missing values of Y are completely random  the observed values of Y are a random sample
of all Y values
 only MCAR is truly random!!!

Diagnostc test for randomness:
Partton your variable into 2 groups: missing and no missingsn then compare the averages of
these groups on other variables. Signifcant differences indicate the possibility of a non-
random missing data process.
Select the imputaton method:
Imputaton of a MCAR missing data process:
 using replacement values: Replacing missing values with estmated values based on
further informaton available in the sample (true imputaton)
$4.18
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached


Also available in package deal

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
snaimn Universität Hohenheim
Follow You need to be logged in order to follow users or courses
Sold
16
Member since
7 year
Number of followers
16
Documents
17
Last sold
4 year ago

5.0

1 reviews

5
1
4
0
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions