Module 4: Multivariate technieken
MULTIVARIATE
ANALYSE
,Inhoudsopgave
Module 4: Multivariate technieken..................................................................3
Hoofdcomponenten en factoranalyse.............................................................................3
Principes van hoofdcomponenten- en factoranalyse...................................................3
Probleem................................................................................................................. 3
Een wiskundig interludium.......................................................................................3
Hoofdcomponenten & factoren................................................................................5
Assumpties bij hoofdcomponenten- en factoranalyse..............................................6
Covariantie of correlatiematrix................................................................................6
Is de correlatiematrix geschikt....................................................................................7
Bartlett toets voor sfeericiteit..................................................................................7
KMO toets voor toereikendheid van de steekproef..................................................8
Hoofdcomponenten-analyse: principes....................................................................8
Factoranalyse........................................................................................................ 10
Selectie van factoren................................................................................................. 10
Aantal variabelen per factor?.................................................................................11
Hoeveel factoren te weerhouden?.........................................................................11
Rotatie....................................................................................................................... 12
Ongedetermineerdheid van facotroplossing..........................................................12
Rotaties................................................................................................................. 12
Factorscores.............................................................................................................. 15
Schalen.................................................................................................................. 15
Factorscores.......................................................................................................... 16
Clusteranalyse.............................................................................................................. 18
Inleiding.................................................................................................................... 18
Afstanden.................................................................................................................. 19
Afstanden: eigenschappen....................................................................................19
Afstands- en proximiteitsmaten.............................................................................19
Verschillende afstandsmaten voor continue variabelen.........................................19
Enkele proximiteitsmaten voor metrische variabelen............................................21
Enkele similariteitsmaten voor dichotome variabelen...........................................22
Hiërarchische clusteranalyse.....................................................................................22
Hoe?...................................................................................................................... 22
Keuzes................................................................................................................... 22
Principes................................................................................................................ 22
Dendogram............................................................................................................ 23
Clusteringmethoden.............................................................................................. 23
Het aantal clusters bepalen...................................................................................24
Geschatte afstanden en de kwaliteit van clusteroplossingen................................25
Hoe verschillende clusters interpreteren...............................................................25
K-Means clusteranalyse............................................................................................. 27
K-means clustering: principes................................................................................27
k-Means vs K-medians clustering...........................................................................27
Kwaliteit van clusteroplossing...............................................................................27
Discriminantanalyse..................................................................................................... 28
Wat?.......................................................................................................................... 28
Basisprincipe............................................................................................................. 28
Voorwaarden voor discriminantanalyse.................................................................29
Sommen der kruisproducten (SSCP)......................................................................29
Berekenen van discriminatiefuncties.........................................................................30
Berekenen van LDFS.............................................................................................. 30
Ruwe & gestandaardiseerde canonieke discrimantfunctiecoëfficiënten....................30
Ruwe coëfficiënten................................................................................................ 30
Discriminantfunctiescores.....................................................................................31
Zwaartepunt of centroid scores.............................................................................31
Gestandaardiseerde coëfficiënten.........................................................................31
1
, Structuurmatrix..................................................................................................... 31
Canonische correlatie . .......................................................................................... 31
Toetsen voor aantal LDFS en WILKS . .........................................................................33
Wilk’s Lambda . ..................................................................................................... 33
Toets voor aantal functies......................................................................................33
Classificatie............................................................................................................... 34
Posteriori waarschijnlijkheden...............................................................................34
2
, MULTIVARIATE ANALYSE
Module 4: Multivariate technieken
Hoofdcomponenten en factoranalyse
Principes van hoofdcomponenten- en factoranalyse
Technieken voor datareductie: gaan trachten om een reeks geobserveerde
variabelen (op het interval of ratio niveau) te vervangen door een reeks
niet geobserveerde of latente variabelen op het interval niveau
aantal variabelen in de analyse reduceren
Multipele indicatoren
- Onderliggende dimensies bv schaalitems
- Reductie aantal variabelen
- Vermijden multicollineariteit
Ontdekken van onderliggende datastructuren
Probleem
Kunnen we de K waargenomen variabelen X vervangen door P latente
variabelen Y waarbij
- P≤K
- Y j=a1 j X 1+ a2 j X 2 +…+ aKj X K (elk van de latente variabelen Y kan
geschreven worden als een lineaire combinatie van de
waargenomen variabelen X)
- Waarbij we P zo klein mogelijk willen houden
- Waar Y 1 … Y P zoveel mogelijk van de variantie in X verklaren
- Var ( Y 1 ) ≥Var ( Y 2 ) ≥ …≥ var ( Y K )
- Verschillende Y onafhankelijk van elkaar
Een wiskundig interludium
Vectoren: grafische voorstelling
3
MULTIVARIATE
ANALYSE
,Inhoudsopgave
Module 4: Multivariate technieken..................................................................3
Hoofdcomponenten en factoranalyse.............................................................................3
Principes van hoofdcomponenten- en factoranalyse...................................................3
Probleem................................................................................................................. 3
Een wiskundig interludium.......................................................................................3
Hoofdcomponenten & factoren................................................................................5
Assumpties bij hoofdcomponenten- en factoranalyse..............................................6
Covariantie of correlatiematrix................................................................................6
Is de correlatiematrix geschikt....................................................................................7
Bartlett toets voor sfeericiteit..................................................................................7
KMO toets voor toereikendheid van de steekproef..................................................8
Hoofdcomponenten-analyse: principes....................................................................8
Factoranalyse........................................................................................................ 10
Selectie van factoren................................................................................................. 10
Aantal variabelen per factor?.................................................................................11
Hoeveel factoren te weerhouden?.........................................................................11
Rotatie....................................................................................................................... 12
Ongedetermineerdheid van facotroplossing..........................................................12
Rotaties................................................................................................................. 12
Factorscores.............................................................................................................. 15
Schalen.................................................................................................................. 15
Factorscores.......................................................................................................... 16
Clusteranalyse.............................................................................................................. 18
Inleiding.................................................................................................................... 18
Afstanden.................................................................................................................. 19
Afstanden: eigenschappen....................................................................................19
Afstands- en proximiteitsmaten.............................................................................19
Verschillende afstandsmaten voor continue variabelen.........................................19
Enkele proximiteitsmaten voor metrische variabelen............................................21
Enkele similariteitsmaten voor dichotome variabelen...........................................22
Hiërarchische clusteranalyse.....................................................................................22
Hoe?...................................................................................................................... 22
Keuzes................................................................................................................... 22
Principes................................................................................................................ 22
Dendogram............................................................................................................ 23
Clusteringmethoden.............................................................................................. 23
Het aantal clusters bepalen...................................................................................24
Geschatte afstanden en de kwaliteit van clusteroplossingen................................25
Hoe verschillende clusters interpreteren...............................................................25
K-Means clusteranalyse............................................................................................. 27
K-means clustering: principes................................................................................27
k-Means vs K-medians clustering...........................................................................27
Kwaliteit van clusteroplossing...............................................................................27
Discriminantanalyse..................................................................................................... 28
Wat?.......................................................................................................................... 28
Basisprincipe............................................................................................................. 28
Voorwaarden voor discriminantanalyse.................................................................29
Sommen der kruisproducten (SSCP)......................................................................29
Berekenen van discriminatiefuncties.........................................................................30
Berekenen van LDFS.............................................................................................. 30
Ruwe & gestandaardiseerde canonieke discrimantfunctiecoëfficiënten....................30
Ruwe coëfficiënten................................................................................................ 30
Discriminantfunctiescores.....................................................................................31
Zwaartepunt of centroid scores.............................................................................31
Gestandaardiseerde coëfficiënten.........................................................................31
1
, Structuurmatrix..................................................................................................... 31
Canonische correlatie . .......................................................................................... 31
Toetsen voor aantal LDFS en WILKS . .........................................................................33
Wilk’s Lambda . ..................................................................................................... 33
Toets voor aantal functies......................................................................................33
Classificatie............................................................................................................... 34
Posteriori waarschijnlijkheden...............................................................................34
2
, MULTIVARIATE ANALYSE
Module 4: Multivariate technieken
Hoofdcomponenten en factoranalyse
Principes van hoofdcomponenten- en factoranalyse
Technieken voor datareductie: gaan trachten om een reeks geobserveerde
variabelen (op het interval of ratio niveau) te vervangen door een reeks
niet geobserveerde of latente variabelen op het interval niveau
aantal variabelen in de analyse reduceren
Multipele indicatoren
- Onderliggende dimensies bv schaalitems
- Reductie aantal variabelen
- Vermijden multicollineariteit
Ontdekken van onderliggende datastructuren
Probleem
Kunnen we de K waargenomen variabelen X vervangen door P latente
variabelen Y waarbij
- P≤K
- Y j=a1 j X 1+ a2 j X 2 +…+ aKj X K (elk van de latente variabelen Y kan
geschreven worden als een lineaire combinatie van de
waargenomen variabelen X)
- Waarbij we P zo klein mogelijk willen houden
- Waar Y 1 … Y P zoveel mogelijk van de variantie in X verklaren
- Var ( Y 1 ) ≥Var ( Y 2 ) ≥ …≥ var ( Y K )
- Verschillende Y onafhankelijk van elkaar
Een wiskundig interludium
Vectoren: grafische voorstelling
3