Samenvatting Multivariate Analyse
Carmen Faber – 2687735
Hoofdstuk 1 t/m 8
Hoofdstuk 1
Univariate technieken kijken naar 1 variabele
Bivariate technieken onderzoeken het verband tussen twee variabelen
- Voorspellen van Y uit X
Multivariate technieken het bekijken van drie of meer variabelen in samenhang
- Variabelen moeten in hun onderlinge samenhang geanalyseerd worden
- Rekenen met kwantitatieve gegevens
- Toetsend vs. explorerend:
o Toetsend = hypothesen worden getoetst o.b.v. van een veronderstelling; er
wordt gekeken naar hoe waarschijnlijk de verkregen gegevens zijn als die
veronderstelling inderdaad waar is.
o Exploratief = verkennen van data
Minder krachtige uitspraken
- Datareductie vs. modeltoetsing
o Datareductie = het terugbrengen van een groot aantal gegevens naar een
kleiner aantal gegevens
Behaptbaar maken van data
o Modeltoetsing = relaties tussen variabelen model opstellen en naar
uitkomstmaten kijken waarbij we relaties veronderstellen tussen de
uitkomstmaten en verschillende oorzakelijke factoren
Hoe liggen die relaties en hebben ze dezelfde richting als we
theoretisch hadden verondersteld?
- Voorspelling vs. samenhang
o Voorspelling = asymmetrisch
X en Y hebben niet dezelfde rol binnen het model
In hoeverre heeft X invloed op Y?
o Samenhang = symmetrisch
A en B hebben dezelfde rol binnen het model
Hoofdstuk 2
Hoog vs. laag meetniveau data
o Meetniveau geeft weer hoeveel informatie een variabele bevat geeft een
indicatie van welke techniek gebruikt moet worden
Nominaal = labelen/classificeren van waarnemingen
Onderscheid maken zonder rangorde
Dichotome variabelen = variabelen met 2 categorieën
Ordinaal = rangorde van oplopende waarde
Interval = rangorde + even grote intervallen
, Geen vast nulpunt (temperatuur)
Ratio = verhouding metingen en verschillen liggen vast
Vast nulpunt (geld)
Absoluut = alle informatie ligt vast (frequentietelling)
Afhankelijke variabele = de variabele die uit andere variabelen wordt geprobeerd te
voorspellen, het gevolg van de oorzaken (Y)
Onafhankelijke variabelen = de oorzaken, de voorspellers (X) (predictoren/covariaten)
Modellen:
- Hebben een structuurovereenkomst met de werkelijkheid die zij beschrijven
o Stelt het onafhankelijk experimenteren met de werkelijkheid toe zonder
daadwerkelijk de werkelijkheid aan te tasten, anders weet je niet ‘what if…’
- De werkelijkheid is complex en onoverzichtelijk met een model kan er onderzocht
worden hoe de werkelijkheid zich gedraagt en verandert en wat de eigenschappen
zijn zonder te hoeven letten op storende of complicerende factoren
- Parameter = coëfficiënt
- Hoge model fit/goodness of fit de voorspelde Y lijkt volgens het model sterk op de
waargenomen Y
o Het model past goed op de gegevens van de werkelijkheid
- Parsimonie (simpelheid) geniet de voorkeur met een zou eenvoudig mogelijk
model een zo goed mogelijke voorspelling doen
- Relatieve fitmaat op de complexiteit van het model straft voor de complexiteit
Empirisch onderzoek = waarnemingen aan de werkelijkheid verrichten
- Operationalisatie:
o Construct = niet direct afleesbaar begrip
o Hypothetisch construct = een abstracte term waarmee naar een niet-
uitwendig waarneembaar kenmerk van personen wordt verwezen
Moeten worden afgeleid uit andere wel waarneembare kenmerken
o Definiëren wat onder een construct wordt verstaan = conceptuele definitie
o Operationele definitie = hoe gaan we het construct meten?
Hoofdstuk 3
Statistiek: 2 definities
- Inferientiële statistiek: Zelfst. Nw. verzameling van methoden om berekeningen
uit te voeren op gegevens die doorgaans uit een steekproef afkomstig zijn.
- Beschrijvende statistiek: Samenvatting serie gegevens (centrummaten)
Beschrijvende statistiek:
- Maten van centrale tendentie = waar de gegevens zich gemiddeld bevonden
o Gemiddelde = som waarnemingen / aantal waarnemingen
Gevoelig voor uitbijters
o Modus = de waarneming die binnen de data het vaakst voorkomt
Bimodaal = twee modussen
, o Mediaan = de waarde waarboven 50% van de waarnemingen ligt
Handig bij scheve verdelingen
Niet gevoelig voor uitbijters
- Maten van spreiding = of er veel verschil was tussen de respondenten
o Range = het spectrum waarop de getallen zich bevinden
o Variantie = s2 = de gemiddelde som van de gekwadrateerde afwijkingen van
de individuele scores van het gemiddelde
Relatie met oorspronkelijke schaal is weg
o Standaarddeviatie = s = wortel uit de variantie
Waarde is weer te interpreteren in termen van de oorspronkelijke
schaal
Inferentiële statistiek:
- Representatieve steekproef = goede weerspiegeling van de populatie geeft info
over een populatie
o Toevalsteekproef/aselecte steekproef/random sample
o Geen systematische verschillen meer, wel random verschillen
o Representatief wanneer ieder lid van de populatie gelijke kansen heeft om in
de steekproef terecht te komen
o Externe validiteit = generaliseren naar de populatie; de bevindingen van
toepassing verklaren over de populatie
o Uitval is vaak niet toevallig en maakt de steekproef niet representatief
o Niet representatief? kenmerken steekproef vergelijken met populatie
moet er gecorrigeerd worden?
- Bias = systematisch verschil/vertekening tussen de leden van de steekproef en de
populatie
- Onzekerheden bij representatieve steekproeven toetsen
o Nulhypothese (H0) = er is niks aan de hand
o Alternatieve hypothese (H1) = er is wel iets aan de hand
o Significant = p-waarde onder de alpha = verwerpen H0 & aannemen H1
Te kleine alpha leidt tot nooit verwerpen H0 er is nooit wat aan de
hand
Type 1 fout = alpha = H0 onterecht verwerpen
Dit doen we zelf, we bepalen zelf hoe groot de alpha is
Type 2 fout = B = H0 onterecht aannemen
We kunnen niet zelf bepalen hoe groot de B is, hangt af van
alpha, steekproefgrootte
Kans om de juiste beslissing te maken als H0 waar is = 1 – alpha
Kans om de juiste beslissing te maken als H1 waar is = 1 – B =
power/statistische kracht
Kleinere steekproef is kleinere power (grotere B)
o Conditionele uitspraken: als … dan
o N = 30 als ondergrens
Te kleine steekproef = alpha vergroten
Te grote steekproef = alpha verkleinen
o Te veel ruis (te grote variantie) of geschonden assumpties niet goed
toetsen
Carmen Faber – 2687735
Hoofdstuk 1 t/m 8
Hoofdstuk 1
Univariate technieken kijken naar 1 variabele
Bivariate technieken onderzoeken het verband tussen twee variabelen
- Voorspellen van Y uit X
Multivariate technieken het bekijken van drie of meer variabelen in samenhang
- Variabelen moeten in hun onderlinge samenhang geanalyseerd worden
- Rekenen met kwantitatieve gegevens
- Toetsend vs. explorerend:
o Toetsend = hypothesen worden getoetst o.b.v. van een veronderstelling; er
wordt gekeken naar hoe waarschijnlijk de verkregen gegevens zijn als die
veronderstelling inderdaad waar is.
o Exploratief = verkennen van data
Minder krachtige uitspraken
- Datareductie vs. modeltoetsing
o Datareductie = het terugbrengen van een groot aantal gegevens naar een
kleiner aantal gegevens
Behaptbaar maken van data
o Modeltoetsing = relaties tussen variabelen model opstellen en naar
uitkomstmaten kijken waarbij we relaties veronderstellen tussen de
uitkomstmaten en verschillende oorzakelijke factoren
Hoe liggen die relaties en hebben ze dezelfde richting als we
theoretisch hadden verondersteld?
- Voorspelling vs. samenhang
o Voorspelling = asymmetrisch
X en Y hebben niet dezelfde rol binnen het model
In hoeverre heeft X invloed op Y?
o Samenhang = symmetrisch
A en B hebben dezelfde rol binnen het model
Hoofdstuk 2
Hoog vs. laag meetniveau data
o Meetniveau geeft weer hoeveel informatie een variabele bevat geeft een
indicatie van welke techniek gebruikt moet worden
Nominaal = labelen/classificeren van waarnemingen
Onderscheid maken zonder rangorde
Dichotome variabelen = variabelen met 2 categorieën
Ordinaal = rangorde van oplopende waarde
Interval = rangorde + even grote intervallen
, Geen vast nulpunt (temperatuur)
Ratio = verhouding metingen en verschillen liggen vast
Vast nulpunt (geld)
Absoluut = alle informatie ligt vast (frequentietelling)
Afhankelijke variabele = de variabele die uit andere variabelen wordt geprobeerd te
voorspellen, het gevolg van de oorzaken (Y)
Onafhankelijke variabelen = de oorzaken, de voorspellers (X) (predictoren/covariaten)
Modellen:
- Hebben een structuurovereenkomst met de werkelijkheid die zij beschrijven
o Stelt het onafhankelijk experimenteren met de werkelijkheid toe zonder
daadwerkelijk de werkelijkheid aan te tasten, anders weet je niet ‘what if…’
- De werkelijkheid is complex en onoverzichtelijk met een model kan er onderzocht
worden hoe de werkelijkheid zich gedraagt en verandert en wat de eigenschappen
zijn zonder te hoeven letten op storende of complicerende factoren
- Parameter = coëfficiënt
- Hoge model fit/goodness of fit de voorspelde Y lijkt volgens het model sterk op de
waargenomen Y
o Het model past goed op de gegevens van de werkelijkheid
- Parsimonie (simpelheid) geniet de voorkeur met een zou eenvoudig mogelijk
model een zo goed mogelijke voorspelling doen
- Relatieve fitmaat op de complexiteit van het model straft voor de complexiteit
Empirisch onderzoek = waarnemingen aan de werkelijkheid verrichten
- Operationalisatie:
o Construct = niet direct afleesbaar begrip
o Hypothetisch construct = een abstracte term waarmee naar een niet-
uitwendig waarneembaar kenmerk van personen wordt verwezen
Moeten worden afgeleid uit andere wel waarneembare kenmerken
o Definiëren wat onder een construct wordt verstaan = conceptuele definitie
o Operationele definitie = hoe gaan we het construct meten?
Hoofdstuk 3
Statistiek: 2 definities
- Inferientiële statistiek: Zelfst. Nw. verzameling van methoden om berekeningen
uit te voeren op gegevens die doorgaans uit een steekproef afkomstig zijn.
- Beschrijvende statistiek: Samenvatting serie gegevens (centrummaten)
Beschrijvende statistiek:
- Maten van centrale tendentie = waar de gegevens zich gemiddeld bevonden
o Gemiddelde = som waarnemingen / aantal waarnemingen
Gevoelig voor uitbijters
o Modus = de waarneming die binnen de data het vaakst voorkomt
Bimodaal = twee modussen
, o Mediaan = de waarde waarboven 50% van de waarnemingen ligt
Handig bij scheve verdelingen
Niet gevoelig voor uitbijters
- Maten van spreiding = of er veel verschil was tussen de respondenten
o Range = het spectrum waarop de getallen zich bevinden
o Variantie = s2 = de gemiddelde som van de gekwadrateerde afwijkingen van
de individuele scores van het gemiddelde
Relatie met oorspronkelijke schaal is weg
o Standaarddeviatie = s = wortel uit de variantie
Waarde is weer te interpreteren in termen van de oorspronkelijke
schaal
Inferentiële statistiek:
- Representatieve steekproef = goede weerspiegeling van de populatie geeft info
over een populatie
o Toevalsteekproef/aselecte steekproef/random sample
o Geen systematische verschillen meer, wel random verschillen
o Representatief wanneer ieder lid van de populatie gelijke kansen heeft om in
de steekproef terecht te komen
o Externe validiteit = generaliseren naar de populatie; de bevindingen van
toepassing verklaren over de populatie
o Uitval is vaak niet toevallig en maakt de steekproef niet representatief
o Niet representatief? kenmerken steekproef vergelijken met populatie
moet er gecorrigeerd worden?
- Bias = systematisch verschil/vertekening tussen de leden van de steekproef en de
populatie
- Onzekerheden bij representatieve steekproeven toetsen
o Nulhypothese (H0) = er is niks aan de hand
o Alternatieve hypothese (H1) = er is wel iets aan de hand
o Significant = p-waarde onder de alpha = verwerpen H0 & aannemen H1
Te kleine alpha leidt tot nooit verwerpen H0 er is nooit wat aan de
hand
Type 1 fout = alpha = H0 onterecht verwerpen
Dit doen we zelf, we bepalen zelf hoe groot de alpha is
Type 2 fout = B = H0 onterecht aannemen
We kunnen niet zelf bepalen hoe groot de B is, hangt af van
alpha, steekproefgrootte
Kans om de juiste beslissing te maken als H0 waar is = 1 – alpha
Kans om de juiste beslissing te maken als H1 waar is = 1 – B =
power/statistische kracht
Kleinere steekproef is kleinere power (grotere B)
o Conditionele uitspraken: als … dan
o N = 30 als ondergrens
Te kleine steekproef = alpha vergroten
Te grote steekproef = alpha verkleinen
o Te veel ruis (te grote variantie) of geschonden assumpties niet goed
toetsen