Samenvatting Computionele analyse
van digitale communicatie
Inhoudsopgave
Lecture 1: introduction to computational methods in communication science ....................................... 3
Wat is computationele social science? ................................................................................................ 3
Waarom is dit nu belangrijk? .......................................................................................................... 4
10 karakteristieken van big data ...................................................................................................... 4
Kansen / Voordelen computational methods ................................................................................... 5
Nadelen / Valkuilen computational methods .................................................................................. 5
Wat is computational communication science? .................................................................................. 5
Voorbeeld I: analyseren van nieuws................................................................................................ 6
Voorbeeld II: Facebook data om persoonlijkheid te voorspellen .................................................... 6
Voorbeeld III: gender representatie op TV...................................................................................... 6
Introductie tot Automated Tekst Analysis ........................................................................................... 7
Symbolen en betekenis in tekst ....................................................................................................... 7
Natural language processing (NLP) ................................................................................................ 8
Linguistics ....................................................................................................................................... 8
General Text Classification Workflow .............................................................................................. 10
Stap 1: Obtaining text (Data-acquisitie) ........................................................................................ 10
Stap 2: Feature engineering ........................................................................................................... 10
Stap 3: Text classification ............................................................................................................. 11
Stap 4: Validation .......................................................................................................................... 11
Tijdlijn van natural language processing ....................................................................................... 12
Ethics of computational communication research ............................................................................. 13
Algemene ethische richtlijnen (Salganik, 2013)............................................................................ 13
Ethicle principes voor CCR ........................................................................................................... 13
Articles .............................................................................................................................................. 14
Lecture 2: Automated text analysis and dictionary approaches ............................................................ 17
Basis van geautomatiseerde tekst analyse ......................................................................................... 17
Tokenization .................................................................................................................................. 18
Meer dan één woord – N-grams .................................................................................................... 19
A tidy format of text analysis ........................................................................................................ 19
De document-term matrix (DTM) ................................................................................................. 20
Voorbeeld: state of the union speeches corpus .............................................................................. 21
Sparsity // sparsiteit /// schaarsheid ............................................................................................... 23
Verwijderen van stopwoorden & zeldzame woorden.................................................................... 24
1
, Normalisatie van woorden............................................................................................................. 25
TF-IDF transformatie (weging) ..................................................................................................... 25
Deductive Approaches: Dictionary analysis ..................................................................................... 27
Voorbeeld: NRC word-emotion association lexicon ..................................................................... 28
Validatie ........................................................................................................................................ 29
Confusiematrix .............................................................................................................................. 30
Articles .............................................................................................................................................. 32
Lecture 3: Test Classification using machine learning .......................................................................... 38
Wat is machine learning? .................................................................................................................. 38
Deductieve vs. inductieve benaderingen ....................................................................................... 38
Supervised vs. unsupervised approaches ....................................................................................... 39
Voorbeeld supervised text classification ....................................................................................... 39
Supervised text classification pipeline .......................................................................................... 40
Tekst classification met artifical neural networks ............................................................................. 43
Word-embeddings ............................................................................................................................. 48
Tekst Classification met Word-Embeddings ..................................................................................... 53
Articles .............................................................................................................................................. 57
Lecture 4: Transformers and large language models............................................................................. 60
Machine Learning vs. Deep Learning ............................................................................................... 60
De opkomst van Transformers en Transfer Learning........................................................................ 61
Large language models: Llama en GPT ............................................................................................ 64
Een kijkje in de architectuur van GPT .............................................................................................. 65
Gebruik van LLM’s voor tekstclassificatie ....................................................................................... 66
Samenvatting & conclusie ................................................................................................................. 70
Article ................................................................................................................................................ 73
2
,Lecture 1: introduction to computational methods in communication
science
Human behavior: is gebaseerd op wat mensen vertellen.
• In zelfrapportagevragenlijsten in enquêtes
• In reacties binnen experimenteel onderzoek
• In kwalitatief onderzoek.
Hoe kunnen we grote hoeveelheden tekst analyseren?
Wat is computationele social science?
Dit vakgebied binnen de sociale wetenschappen gebruikt algoritmische technieken en grote (vaak
ongestructureerde) databestanden om menselijk en sociaal gedrag beter te begrijpen.
Het vervangt traditionele onderzoeksmethoden niet, maar vult ze aan. De gebruikte methoden zijn dus
geen doel op zich, maar helpen om nieuwe vormen van data te genereren en analyseren.
Voorbeelden van gebruikte methoden:
• Data mining: het verzamelen en analyseren van grote hoeveelheden data (zoals
socialmediagegevens).
• Softwareontwikkeling: het bouwen van programma’s of tools voor sociaalwetenschappelijke
experimenten.
• Automatische tekstanalyse: bijvoorbeeld sentimentanalyse, trefwoordanalyse of werken met
woordenlijsten.
• Beeldclassificatie: zoals gezichtsherkenning of het analyseren van visuele thema’s in
foto’s/video’s.
• Machine learning: voor classificatie, voorspelling of het herkennen van patronen in data.
• Actor-based modeling: het simuleren van sociaal gedrag, zoals hoe informatie zich verspreidt
in een netwerk.
Samengevat:
Dit onderzoeksgebied – vaak aangeduid als computational social science – gebruikt technologie en
algoritmen om gedragspatronen te ontdekken in grote datasets, als aanvulling op traditionele
onderzoeksmethoden zoals enquêtes en interviews.
3
, Waarom is dit nu belangrijk?
Er zijn verschillende redenen waarom dit onderzoeksveld juist nu steeds belangrijker wordt:
1. Enorme hoeveelheden digitale data:
Tegenwoordig is er een overvloed aan digitaal beschikbare informatie — van sociale media-
berichten en online sporen tot webarchieven en gedigitaliseerde kranten en historische
documenten.
2. Constante creatie van ‘big data’:
Er worden continu grootschalige databestanden opgebouwd over personen en bedrijven,
bijvoorbeeld via online interacties, aankopen of administratieve gegevens.
3. Sterke en betaalbare rekenkracht:
Dankzij moderne technologie is het nu mogelijk om grote datasets snel en goedkoop te
verwerken met toegankelijke computersystemen en cloudplatforms.
4. Verbeterde analysetools:
Nieuwe methoden maken het eenvoudiger om complexe data te begrijpen, zoals:
o Netwerkanalyse: om relaties en verbindingen tussen mensen of organisaties te
onderzoeken.
o Automatische tekstanalyse: zoals supervised text classification, topic modeling,
word embeddings en large language models (zoals ChatGPT).
10 karakteristieken van big data
# Kenmerk Beschrijving
1 Big // Groot De omvang van sommige datasets is indrukwekkend. Big data
zijn geen doel op zich, maar maken wel onderzoek mogelijk
naar zeldzame gebeurtenissen, variatie tussen groepen, en het
ontdekken van kleine verschillen.
2 Always on // Altijd actief Veel big data-systemen verzamelen continu gegevens, waardoor
onverwachte gebeurtenissen bestudeerd kunnen worden en
realtime metingen mogelijk zijn.
3 Nonreactive // Niet- De deelnemers weten meestal niet dat hun data worden
reactief verzameld, of zijn eraan gewend, waardoor het verzamelen van
data hun gedrag niet beïnvloedt.
4 Incomplete // Onvolledig De meeste big data-bronnen bevatten niet alle informatie die je
voor je onderzoek wilt. Dit is typisch voor data die
oorspronkelijk voor andere doeleinden zijn verzameld.
5 Inaccessible // Gegevens die in bezit zijn van bedrijven of overheden zijn vaak
Onbereikbaar moeilijk toegankelijk voor onderzoekers.
6 Nonrepresentative // Niet- De meeste big datasets zijn niet representatief voor alle
representatief bevolkingsgroepen. Het is daarom lastig of onmogelijk om
generalisaties te maken naar andere groepen.
7 Drifting // Veranderlijk Veel big data-systemen veranderen voortdurend, waardoor het
moeilijk is om lange-termijn trends te bestuderen.
8 Algorithmically Het gedrag dat in big data wordt vastgelegd is niet volledig
confounded // natuurlijk; het wordt vaak gestuurd door de ontwerpdoelen van
Algoritmisch beïnvloed de systemen die de data verzamelen.
9 Dirty // ‘Vuil’ Big data bevat vaak veel ruis, zoals spam, onbetrouwbare
gegevens of irrelevante datapoints.
10 Senstive // Gevoelig Sommige gegevens van bedrijven of overheden zijn
vertrouwelijk of gevoelig van aard.
4
van digitale communicatie
Inhoudsopgave
Lecture 1: introduction to computational methods in communication science ....................................... 3
Wat is computationele social science? ................................................................................................ 3
Waarom is dit nu belangrijk? .......................................................................................................... 4
10 karakteristieken van big data ...................................................................................................... 4
Kansen / Voordelen computational methods ................................................................................... 5
Nadelen / Valkuilen computational methods .................................................................................. 5
Wat is computational communication science? .................................................................................. 5
Voorbeeld I: analyseren van nieuws................................................................................................ 6
Voorbeeld II: Facebook data om persoonlijkheid te voorspellen .................................................... 6
Voorbeeld III: gender representatie op TV...................................................................................... 6
Introductie tot Automated Tekst Analysis ........................................................................................... 7
Symbolen en betekenis in tekst ....................................................................................................... 7
Natural language processing (NLP) ................................................................................................ 8
Linguistics ....................................................................................................................................... 8
General Text Classification Workflow .............................................................................................. 10
Stap 1: Obtaining text (Data-acquisitie) ........................................................................................ 10
Stap 2: Feature engineering ........................................................................................................... 10
Stap 3: Text classification ............................................................................................................. 11
Stap 4: Validation .......................................................................................................................... 11
Tijdlijn van natural language processing ....................................................................................... 12
Ethics of computational communication research ............................................................................. 13
Algemene ethische richtlijnen (Salganik, 2013)............................................................................ 13
Ethicle principes voor CCR ........................................................................................................... 13
Articles .............................................................................................................................................. 14
Lecture 2: Automated text analysis and dictionary approaches ............................................................ 17
Basis van geautomatiseerde tekst analyse ......................................................................................... 17
Tokenization .................................................................................................................................. 18
Meer dan één woord – N-grams .................................................................................................... 19
A tidy format of text analysis ........................................................................................................ 19
De document-term matrix (DTM) ................................................................................................. 20
Voorbeeld: state of the union speeches corpus .............................................................................. 21
Sparsity // sparsiteit /// schaarsheid ............................................................................................... 23
Verwijderen van stopwoorden & zeldzame woorden.................................................................... 24
1
, Normalisatie van woorden............................................................................................................. 25
TF-IDF transformatie (weging) ..................................................................................................... 25
Deductive Approaches: Dictionary analysis ..................................................................................... 27
Voorbeeld: NRC word-emotion association lexicon ..................................................................... 28
Validatie ........................................................................................................................................ 29
Confusiematrix .............................................................................................................................. 30
Articles .............................................................................................................................................. 32
Lecture 3: Test Classification using machine learning .......................................................................... 38
Wat is machine learning? .................................................................................................................. 38
Deductieve vs. inductieve benaderingen ....................................................................................... 38
Supervised vs. unsupervised approaches ....................................................................................... 39
Voorbeeld supervised text classification ....................................................................................... 39
Supervised text classification pipeline .......................................................................................... 40
Tekst classification met artifical neural networks ............................................................................. 43
Word-embeddings ............................................................................................................................. 48
Tekst Classification met Word-Embeddings ..................................................................................... 53
Articles .............................................................................................................................................. 57
Lecture 4: Transformers and large language models............................................................................. 60
Machine Learning vs. Deep Learning ............................................................................................... 60
De opkomst van Transformers en Transfer Learning........................................................................ 61
Large language models: Llama en GPT ............................................................................................ 64
Een kijkje in de architectuur van GPT .............................................................................................. 65
Gebruik van LLM’s voor tekstclassificatie ....................................................................................... 66
Samenvatting & conclusie ................................................................................................................. 70
Article ................................................................................................................................................ 73
2
,Lecture 1: introduction to computational methods in communication
science
Human behavior: is gebaseerd op wat mensen vertellen.
• In zelfrapportagevragenlijsten in enquêtes
• In reacties binnen experimenteel onderzoek
• In kwalitatief onderzoek.
Hoe kunnen we grote hoeveelheden tekst analyseren?
Wat is computationele social science?
Dit vakgebied binnen de sociale wetenschappen gebruikt algoritmische technieken en grote (vaak
ongestructureerde) databestanden om menselijk en sociaal gedrag beter te begrijpen.
Het vervangt traditionele onderzoeksmethoden niet, maar vult ze aan. De gebruikte methoden zijn dus
geen doel op zich, maar helpen om nieuwe vormen van data te genereren en analyseren.
Voorbeelden van gebruikte methoden:
• Data mining: het verzamelen en analyseren van grote hoeveelheden data (zoals
socialmediagegevens).
• Softwareontwikkeling: het bouwen van programma’s of tools voor sociaalwetenschappelijke
experimenten.
• Automatische tekstanalyse: bijvoorbeeld sentimentanalyse, trefwoordanalyse of werken met
woordenlijsten.
• Beeldclassificatie: zoals gezichtsherkenning of het analyseren van visuele thema’s in
foto’s/video’s.
• Machine learning: voor classificatie, voorspelling of het herkennen van patronen in data.
• Actor-based modeling: het simuleren van sociaal gedrag, zoals hoe informatie zich verspreidt
in een netwerk.
Samengevat:
Dit onderzoeksgebied – vaak aangeduid als computational social science – gebruikt technologie en
algoritmen om gedragspatronen te ontdekken in grote datasets, als aanvulling op traditionele
onderzoeksmethoden zoals enquêtes en interviews.
3
, Waarom is dit nu belangrijk?
Er zijn verschillende redenen waarom dit onderzoeksveld juist nu steeds belangrijker wordt:
1. Enorme hoeveelheden digitale data:
Tegenwoordig is er een overvloed aan digitaal beschikbare informatie — van sociale media-
berichten en online sporen tot webarchieven en gedigitaliseerde kranten en historische
documenten.
2. Constante creatie van ‘big data’:
Er worden continu grootschalige databestanden opgebouwd over personen en bedrijven,
bijvoorbeeld via online interacties, aankopen of administratieve gegevens.
3. Sterke en betaalbare rekenkracht:
Dankzij moderne technologie is het nu mogelijk om grote datasets snel en goedkoop te
verwerken met toegankelijke computersystemen en cloudplatforms.
4. Verbeterde analysetools:
Nieuwe methoden maken het eenvoudiger om complexe data te begrijpen, zoals:
o Netwerkanalyse: om relaties en verbindingen tussen mensen of organisaties te
onderzoeken.
o Automatische tekstanalyse: zoals supervised text classification, topic modeling,
word embeddings en large language models (zoals ChatGPT).
10 karakteristieken van big data
# Kenmerk Beschrijving
1 Big // Groot De omvang van sommige datasets is indrukwekkend. Big data
zijn geen doel op zich, maar maken wel onderzoek mogelijk
naar zeldzame gebeurtenissen, variatie tussen groepen, en het
ontdekken van kleine verschillen.
2 Always on // Altijd actief Veel big data-systemen verzamelen continu gegevens, waardoor
onverwachte gebeurtenissen bestudeerd kunnen worden en
realtime metingen mogelijk zijn.
3 Nonreactive // Niet- De deelnemers weten meestal niet dat hun data worden
reactief verzameld, of zijn eraan gewend, waardoor het verzamelen van
data hun gedrag niet beïnvloedt.
4 Incomplete // Onvolledig De meeste big data-bronnen bevatten niet alle informatie die je
voor je onderzoek wilt. Dit is typisch voor data die
oorspronkelijk voor andere doeleinden zijn verzameld.
5 Inaccessible // Gegevens die in bezit zijn van bedrijven of overheden zijn vaak
Onbereikbaar moeilijk toegankelijk voor onderzoekers.
6 Nonrepresentative // Niet- De meeste big datasets zijn niet representatief voor alle
representatief bevolkingsgroepen. Het is daarom lastig of onmogelijk om
generalisaties te maken naar andere groepen.
7 Drifting // Veranderlijk Veel big data-systemen veranderen voortdurend, waardoor het
moeilijk is om lange-termijn trends te bestuderen.
8 Algorithmically Het gedrag dat in big data wordt vastgelegd is niet volledig
confounded // natuurlijk; het wordt vaak gestuurd door de ontwerpdoelen van
Algoritmisch beïnvloed de systemen die de data verzamelen.
9 Dirty // ‘Vuil’ Big data bevat vaak veel ruis, zoals spam, onbetrouwbare
gegevens of irrelevante datapoints.
10 Senstive // Gevoelig Sommige gegevens van bedrijven of overheden zijn
vertrouwelijk of gevoelig van aard.
4