= proefpersonen in groepen verdelen op basis van gelijke karakteristieken
➔ Groepen moeten op een systematische manier van elkaar gescheiden kunnen worden
➔ Gaat focus leggen op OBSERVATIES, als je je respondent in dataset wil verdelen in
gemeenschappelijke observaties
➔ Hiervoor hebben een SIMILARITEITSMAAT nodig = maat die aangeeft hoe dicht observaties
bij elkaar liggen
➔ We gaan een afstand tussen twee punten definiëren, punten die het meest op elkaar lijken,
nemen we samen tot we één cluster hebben = hiërarische cluster
Voorbeeldoefening
5 Sollicitanten leggen 3 testen af: een taaltest, een test op analytisch inzicht en een
persoonlijkheidstest. De resultaten staan in de volgende tabel:
Welke groepen zou je maken op basis van deze drie kenmerken?
➔ Eva, Juul & Bart: gelijkaardige respons (groep van maken)
➔ Jan (aparte groep) & Piet (ander profiel) liggen meer alleen
➔ Je gaat kijken naar mensen die hetzelfde patroon van scores vertonen over de v die je
wilt meenemen
1
, 1) Bepaal de City block (=manhatten) afstandsmaten en de Euclidische afstandsmaten
en stel voor beide situaties een afstandsmatrix op.
Voor elke clusteranalyse is het van belang om een afstands- of similariteitsmaat te kiezen.
Deze bepaalt hoe de afstand tussen twee punten berekend wordt. De City Block afstand
gebruikt onderstaande formule om de afstand tussen twee punten te bepalen. Dit komt
overeen met de som van het aantal stappen die op de as van elke variabele gezet zouden
worden
(waarbij: d = afstand, O = object, p = # variabelen, i = 1e object, j = 2e object)
CITY BLOCK
Eens je deze afstanden hebt, kan je de afstandsmatrix opstellen. Deze matrix geeft een
overzicht van de afstanden tussen de objecten in je dataset. Enkele belangrijke
eigenschappen die de matrix overzichtelijk houden zijn:
o De afstand van een punt tot zichzelf is steeds nul. Dit betekent dat de diagonaal van
de afstandsmatrix steeds nul zal zijn.
o De afstand van A tot B is gelijk aan de afstand van B tot A (symmetrie). Dit betekent
dat de afstandsmatrix boven de diagonaal een spiegeling is van onder de diagonaal
(en je dus slechts één van beide moet invullen!).
2
,AFSTANDSMATRIX (city block)
Piet A Juul B Jan C Eva D Bart E
Piet A 0
Juul B 19 0
Jan C 19 10 0
Eva D 20 5 13 0
Bart E 21 10 14 5 0
➔ Diagonaal altijd 0
➔ Afstand AB = BA
➔ Alle afstanden die je berekent hebt hier invullen
De Euclidische afstand berust op de stelling van Pythagoras om de afstand tussen twee
punten te bepalen: 𝑎² + 𝑏² = 𝑐²
EUCLIDISCH
3
, AFSTANDMATRIX (euclidische)
Piet Juul Jan Eva Bart
Piet 0
Juul 11 0
Jan 12,85 6,48 0
Eva 11,75 3 8,19 0
Bart 13,08 5,83 9,49 3 0
2) Cluster deze 5 sollicitanten op basis van de City block afstanden en gebruik:
Onderstaande methodes zijn hiërarchische (meer specifiek agglomeratieve)
clusteringsmethodes, waarbij men vertrekt vanuit het idee dat elk object een cluster an sich
is en stapsgewijs een object wordt opgenomen in een cluster totdat alle objecten één cluster
vormen.
De clustermethode die je gebruikt bepaalt op welke manier de afstand van een punt tot de
nieuw gevormde cluster berekend wordt.
Agglomeratieve clustering gebeurt steeds aan de hand van een vaststaand stappenplan:
Stap 1: De afstandsmatrix opstellen.
Stap 2: Clusteren van de 2 punten die de kleinste afstand hebben, want deze punten
“lijken het meeste op elkaar”. Noot: indien twee paren van punten eenzelfde kleinste
afstand hebben, mag je kiezen welke cluster je eerst vormt.
Stap 3: Afstanden bepalen van de overgebleven objecten tov de nieuwe cluster.
Hierbij gebruik je de gekozen linkmethode (single, complete of average).
Stap 4: Nieuwe afstandsmatrix opstellen.
Stap 5: stap 2 tem 4 herhalen totdat alle punten samengevoegd werden.
Stap 6: alle objecten samenvoegen tot één cluster.
4