BEHAVIORAL DATA SCIENCE SAMENVATTING
Lecture 1 - Intro and Theory
Behavioural Data Science = Een multidisciplinair wetenschappelijk vakgebied dat tot doel
heeft het begrijpen, voorspellen en veranderen van menselijk gedrag te faciliteren door de
analyse van gedragsmatig gedefinieerde variabelen zoals die voortkomen in grote datasets
(“Big Data”), doorgaans verzameld met behulp van moderne digitale technologie (bijv.
online of via mobiele apparaten) en geanalyseerd met technieken om patronen te detecteren
in hoog-dimensionale data (bijv. machine learning).
Understanding, prediction en change:
Understanding
● Je ontwikkelt theorieën en computationele modellen om te beschrijven hoe en
waarom mensen zich gedragen zoals ze doen.
● Voorbeeld: je bouwt een model dat uitlegt hoe sociale media- gebruik leidt tot afname
van aandachtsspanne: daarin geef je variabelen (aantal notificaties, duur van scroll
sessies, aard van content) en formules die hun wisselwerking vastleggen.
● Doel: helder maken welke onderliggende processen (zoals beloningsmechanismen of
zelfregulatie) ten grondslag liggen aan geobserveerd gedrag.
1
,Prediction
● Je gebruikt statistische en machine-learning modellen om te achterhalen welke
gedragsvariabelen samenhangen, en op basis daarvan toekomstig gedrag te
schatten.
● Voorbeeld: op basis van slaap- en activiteitsdata van een week voorspel je iemands
stressniveau morgen, zodat je op tijd een alarm kan sturen.
● Doel: betrouwbare voorspellingen, ook in situaties die nog niet eerder in je dataset
voorkwamen.
Change
● Je ontwerpt en test interventies (apps, nudges, training, feedback) en gebruikt je
modellen om te simuleren hoe mensen zullen reageren als je iets in hun omgeving
verandert.
● Voorbeeld: je voorspelt met je model dat het sturen van een push-melding om
20:00 uur leidt tot 30 % minder schermgebruik na 21:00, en implementeert die
melding om uiteindelijk slaappatronen te verbeteren.
● Doel: inzichtelijk maken welke ingreep het meest effectief is om gedrag te
beïnvloeden, en waarin mensen wél of niet gevoelig zijn voor verandering.
Waarom is gedragsdata science nodig?
● Menselijk gedrag ligt aan de basis van veel van de meest centrale problemen van
onze tijd: de verspreiding van COVID-19 en klimaatverandering, maar ook oorlog en
hongersnood hebben belangrijke gedragscomponenten.
● Menselijk gedrag “is mogelijk het moeilijkste onderwerp dat ooit aan
wetenschappelijke analyse is onderworpen” (Skinner, 1987).
● Toch zijn de standaardmethoden om het te bestuderen opmerkelijk eenvoudig:
vragenlijsten, tests en kleinschalige experimenten. Deze zijn ook ver verwijderd van
de dynamiek en ecologie waarin menselijk gedrag daadwerkelijk ontstaat.
● Dat kan een probleem zijn. Gedragsdata Science is nodig, omdat we ons onderwerp
van analyse beter willen begrijpen en daarvoor hebben we dit soort data nodig.
● Maar recent worden er nieuwe data bronnen aangeboord, en die bieden nieuwe
manieren om oude vragen te benaderen
De woorden in gedragsdata science zijn hetzelfde als in andere wetenschappelijke disciplines
— we gebruiken dezelfde taal.
Voorbeeld van data science over polarisatie:
● Visualisatie van een gepolariseerd en gesegregeerd netwerk van retweets tijdens de
Amerikaanse tussentijdse verkiezingen van 2010.
● Knopen zijn Twittergebruikers, kleuren geven politieke voorkeur aan (rood =
conservatief, blauw = progressief).
● Analyse van deze netwerken helpt bij het begrijpen van polarisatie in gedrag en
communicatie.
2
,De architectuur van de data wereld:
Data
● Data zijn representaties van observaties, geen observaties zelf.
● Van observatie naar data gaat een proces waarin keuzes worden gemaakt, daarom is
de gedragscomponent in data belangrijk.
● Data is vaak gestructureerd in rijen (cases) en kolommen (eigenschappen/variabelen).
● Voorbeeld:Observatie: "Pete lost IQ test item 36 correctly op" Data representatie:
Pete krijgt een 1 in kolom IQ-item 36
Phenomena
● Fenomenen zijn robuuste kenmerken van de werkelijkheid die door data worden
aangetoond, zoals correlaties of effecten (bijv. verband tussen slapeloosheid en
depressie).
● Fenomenen zijn zelf geen data, maar blijken uit patronen in data.
● Complexe psychologische fenomenen vereisen vaak geavanceerde statistische
modellen om ze zichtbaar te maken.
Theories
● Theorieën (met name verklarende theorieën) zijn sets principes die fenomenen
verklaren.
● Ze beschrijven een wereld waarin de fenomenen vanzelfsprekend zijn.
● Goede theorieën zijn vaak wiskundig geformaliseerd, zodat ze optimaal aan data
gekoppeld kunnen worden.
----------------------------------------------------------------------------------------------------------------
Diepgaand voorbeeld: de snelheid-nauwkeurigheid afweging (speed-accuracy trade-off)
Voorbeeld: The Lexical Decision Task
● Deelnemers beslissen of een letterreeks een woord is (bv. "tango") of een niet-
woord (bv. "drapa").
● Deelnemers wordt gevraagd om dit zo snel mogelijk en accuraat mogelijk te doen.
● Kernvariabelen: response time (RT) en accuracy (proportie correcte antwoorden).
● Prestaties op deze taak zouden moeten meten hoe gemakkelijk lexical
representations uit het geheugen worden geactiveerd.
● Prestatie is beter voor veelvoorkomende woorden dan voor zeldzame.
Een theorie over het verschil in ouderen en jongeren bij deze test: Global Slowing
● Oudere volwassenen zijn over het algemeen langzamer dan jongere volwassenen.
● Wordt verklaard door de general slowing hypothesis = Alle cognitieve processen
gaan trager bij oudere volwassenen
Probleem met de standaard analyse van de The Lexical Decision Task:
3
, ● Rekent niet af met de snelheid-nauwkeurigheid afweging: Dus of mensen tijdens de
test kiezen om hem zo snel mogelijk of zo accuraat mogelijk te maken.
● Geen procesmodel, dus geen inzicht in hoe gedrag tot stand komt.
● Veel speculatie, geen ontleding van onderliggende processen.
Oplossing: Ratcliff Diffusie Model (RDM)
● Een model dat beschrijft hoe ruisachtige evidentie in de loop van de tijd wordt
geaccumuleerd.
○ Het model stelt dat we bij eenvoudige beslissingen niet in één keer weten wat
we moeten doen, maar geleidelijk informatie verzamelen, en pas als we
genoeg (betrouwbare) informatie hebben, nemen we een beslissing. Omdat
die informatie 'ruisachtig' is, kan het langer duren of leiden tot fouten.
● Een model dat de data uit eenvoudige besluitvorming experimenten beschrijft.
● Een model dat waarneembaar gedrag kan ontleden in latente psychologische
processen.
Verschillende begrippen RDM:
● Drift-rate (v) = Maatstaf voor taakmoeilijkheid of vaardigheid (hoge drift = snel en
correct antwoord)
● Boundary Separation = Grensafstand. Mate van voorzichtigheid in de reactie;
beïnvloedt snelheid-nauwkeurigheid afweging.
● Starting point (z) = Vooraf bestaande voorkeuren of biases voor een van de keuzes
● Non-decision time (Ter) = Tijd die nodig is voor stimulus codering en motorische
uitvoering
Hoe het Ratcliff Diffusion Model werkt:
● Mensen verzamelen telkens kleine beetjes informatie om een bepaalde keuze te
maken
● Als deze informatie een bepaalde vooropgestelde grens (threshold) bereikt zal dit
ervoor zorgen dat mensen een bepaalde reactie uitvoeren
● Het model houd naast besluitingstijd ook rekening met de reactietijd (dus de tijd die
het kost om een bepaalde reactie uit te voeren)
4
Lecture 1 - Intro and Theory
Behavioural Data Science = Een multidisciplinair wetenschappelijk vakgebied dat tot doel
heeft het begrijpen, voorspellen en veranderen van menselijk gedrag te faciliteren door de
analyse van gedragsmatig gedefinieerde variabelen zoals die voortkomen in grote datasets
(“Big Data”), doorgaans verzameld met behulp van moderne digitale technologie (bijv.
online of via mobiele apparaten) en geanalyseerd met technieken om patronen te detecteren
in hoog-dimensionale data (bijv. machine learning).
Understanding, prediction en change:
Understanding
● Je ontwikkelt theorieën en computationele modellen om te beschrijven hoe en
waarom mensen zich gedragen zoals ze doen.
● Voorbeeld: je bouwt een model dat uitlegt hoe sociale media- gebruik leidt tot afname
van aandachtsspanne: daarin geef je variabelen (aantal notificaties, duur van scroll
sessies, aard van content) en formules die hun wisselwerking vastleggen.
● Doel: helder maken welke onderliggende processen (zoals beloningsmechanismen of
zelfregulatie) ten grondslag liggen aan geobserveerd gedrag.
1
,Prediction
● Je gebruikt statistische en machine-learning modellen om te achterhalen welke
gedragsvariabelen samenhangen, en op basis daarvan toekomstig gedrag te
schatten.
● Voorbeeld: op basis van slaap- en activiteitsdata van een week voorspel je iemands
stressniveau morgen, zodat je op tijd een alarm kan sturen.
● Doel: betrouwbare voorspellingen, ook in situaties die nog niet eerder in je dataset
voorkwamen.
Change
● Je ontwerpt en test interventies (apps, nudges, training, feedback) en gebruikt je
modellen om te simuleren hoe mensen zullen reageren als je iets in hun omgeving
verandert.
● Voorbeeld: je voorspelt met je model dat het sturen van een push-melding om
20:00 uur leidt tot 30 % minder schermgebruik na 21:00, en implementeert die
melding om uiteindelijk slaappatronen te verbeteren.
● Doel: inzichtelijk maken welke ingreep het meest effectief is om gedrag te
beïnvloeden, en waarin mensen wél of niet gevoelig zijn voor verandering.
Waarom is gedragsdata science nodig?
● Menselijk gedrag ligt aan de basis van veel van de meest centrale problemen van
onze tijd: de verspreiding van COVID-19 en klimaatverandering, maar ook oorlog en
hongersnood hebben belangrijke gedragscomponenten.
● Menselijk gedrag “is mogelijk het moeilijkste onderwerp dat ooit aan
wetenschappelijke analyse is onderworpen” (Skinner, 1987).
● Toch zijn de standaardmethoden om het te bestuderen opmerkelijk eenvoudig:
vragenlijsten, tests en kleinschalige experimenten. Deze zijn ook ver verwijderd van
de dynamiek en ecologie waarin menselijk gedrag daadwerkelijk ontstaat.
● Dat kan een probleem zijn. Gedragsdata Science is nodig, omdat we ons onderwerp
van analyse beter willen begrijpen en daarvoor hebben we dit soort data nodig.
● Maar recent worden er nieuwe data bronnen aangeboord, en die bieden nieuwe
manieren om oude vragen te benaderen
De woorden in gedragsdata science zijn hetzelfde als in andere wetenschappelijke disciplines
— we gebruiken dezelfde taal.
Voorbeeld van data science over polarisatie:
● Visualisatie van een gepolariseerd en gesegregeerd netwerk van retweets tijdens de
Amerikaanse tussentijdse verkiezingen van 2010.
● Knopen zijn Twittergebruikers, kleuren geven politieke voorkeur aan (rood =
conservatief, blauw = progressief).
● Analyse van deze netwerken helpt bij het begrijpen van polarisatie in gedrag en
communicatie.
2
,De architectuur van de data wereld:
Data
● Data zijn representaties van observaties, geen observaties zelf.
● Van observatie naar data gaat een proces waarin keuzes worden gemaakt, daarom is
de gedragscomponent in data belangrijk.
● Data is vaak gestructureerd in rijen (cases) en kolommen (eigenschappen/variabelen).
● Voorbeeld:Observatie: "Pete lost IQ test item 36 correctly op" Data representatie:
Pete krijgt een 1 in kolom IQ-item 36
Phenomena
● Fenomenen zijn robuuste kenmerken van de werkelijkheid die door data worden
aangetoond, zoals correlaties of effecten (bijv. verband tussen slapeloosheid en
depressie).
● Fenomenen zijn zelf geen data, maar blijken uit patronen in data.
● Complexe psychologische fenomenen vereisen vaak geavanceerde statistische
modellen om ze zichtbaar te maken.
Theories
● Theorieën (met name verklarende theorieën) zijn sets principes die fenomenen
verklaren.
● Ze beschrijven een wereld waarin de fenomenen vanzelfsprekend zijn.
● Goede theorieën zijn vaak wiskundig geformaliseerd, zodat ze optimaal aan data
gekoppeld kunnen worden.
----------------------------------------------------------------------------------------------------------------
Diepgaand voorbeeld: de snelheid-nauwkeurigheid afweging (speed-accuracy trade-off)
Voorbeeld: The Lexical Decision Task
● Deelnemers beslissen of een letterreeks een woord is (bv. "tango") of een niet-
woord (bv. "drapa").
● Deelnemers wordt gevraagd om dit zo snel mogelijk en accuraat mogelijk te doen.
● Kernvariabelen: response time (RT) en accuracy (proportie correcte antwoorden).
● Prestaties op deze taak zouden moeten meten hoe gemakkelijk lexical
representations uit het geheugen worden geactiveerd.
● Prestatie is beter voor veelvoorkomende woorden dan voor zeldzame.
Een theorie over het verschil in ouderen en jongeren bij deze test: Global Slowing
● Oudere volwassenen zijn over het algemeen langzamer dan jongere volwassenen.
● Wordt verklaard door de general slowing hypothesis = Alle cognitieve processen
gaan trager bij oudere volwassenen
Probleem met de standaard analyse van de The Lexical Decision Task:
3
, ● Rekent niet af met de snelheid-nauwkeurigheid afweging: Dus of mensen tijdens de
test kiezen om hem zo snel mogelijk of zo accuraat mogelijk te maken.
● Geen procesmodel, dus geen inzicht in hoe gedrag tot stand komt.
● Veel speculatie, geen ontleding van onderliggende processen.
Oplossing: Ratcliff Diffusie Model (RDM)
● Een model dat beschrijft hoe ruisachtige evidentie in de loop van de tijd wordt
geaccumuleerd.
○ Het model stelt dat we bij eenvoudige beslissingen niet in één keer weten wat
we moeten doen, maar geleidelijk informatie verzamelen, en pas als we
genoeg (betrouwbare) informatie hebben, nemen we een beslissing. Omdat
die informatie 'ruisachtig' is, kan het langer duren of leiden tot fouten.
● Een model dat de data uit eenvoudige besluitvorming experimenten beschrijft.
● Een model dat waarneembaar gedrag kan ontleden in latente psychologische
processen.
Verschillende begrippen RDM:
● Drift-rate (v) = Maatstaf voor taakmoeilijkheid of vaardigheid (hoge drift = snel en
correct antwoord)
● Boundary Separation = Grensafstand. Mate van voorzichtigheid in de reactie;
beïnvloedt snelheid-nauwkeurigheid afweging.
● Starting point (z) = Vooraf bestaande voorkeuren of biases voor een van de keuzes
● Non-decision time (Ter) = Tijd die nodig is voor stimulus codering en motorische
uitvoering
Hoe het Ratcliff Diffusion Model werkt:
● Mensen verzamelen telkens kleine beetjes informatie om een bepaalde keuze te
maken
● Als deze informatie een bepaalde vooropgestelde grens (threshold) bereikt zal dit
ervoor zorgen dat mensen een bepaalde reactie uitvoeren
● Het model houd naast besluitingstijd ook rekening met de reactietijd (dus de tijd die
het kost om een bepaalde reactie uit te voeren)
4