Inleiding
Sociale wetenschappen (Bushway & Weisburd, 2006)
= Confrontatie met uitdaging om methoden te importeren, introspecteren
en innoveren om onderzoeksvragen beter te beantwoorden
• Importeren: criminologie heeft geen eigen
methodologie
methodes ontlenen uit andere wetenschappen
nieuwe inzichten door verschillende
meetniveaus
“De criminoloog van morgen is maar zo sterk als het instrumentarium
waarover hij/zij beschikt.”
Je moet weet hoe methodes in elkaar zitten, hoe je ze moet
gebruiken…
Data
Piramide (zie handboek)
Soorten data genereren door nieuwe technologieën:
1. Kwalitatieve en kwantitatieve data
• Kwalitatief = niet-numerieke data
• vb. Tekst, foto’s, video’s, geluid
• Kwantitatief = numerieke data
• Nominale variabelen: categorisatie (bv. haarkleur)
• Ordinale variabelen: ordening in categorieën (bv.
opleidingsniveau)
• Intervalvariabelen: gelijke verschillen tussen de
categorieën (bv. verschil 0°C en 5°C = verschil 20°C en
25°C)
• Ratiovariabelen: absoluut nulpunt (bv. leeftijd)
2. Primaire, secundaire en tertiaire data
, • Primair: data wordt gebruikt door de onderzoekers die zelf die
data verzamelen (= made data)
• Secundair: verzameld door anderen voor andere (primaire)
doeleinden (= found data)
Bv. Politiediensten die criminaliteitscijfers bijhouden
• Tertiair: komt voor uit de verwerking van primair en secundaire
data
3. Index-, attribuut- en metadata
• Indexdata: data die identificatie en koppeling mogelijk maken (=
unieke identificatoren) (bv. Studentennummer)
• Attribuutdata: data over aspecten van een bepaald verschijnsel,
maar niet indexerend van aard (bv. Geslacht)
• Metadata:
• Beschrijvende metadata: gebruikt om data te
verkennen en informatie op te zoeken en te
lokaliseren
• Structurele metadata: beschrijven de relaties tussen
elementen, geeft meer info over de variabelen
(bv. Leeftijd moet een integer getal zijn tussen 0 en
120)
• Administratieve metadata: betrekking op het
databestand
(bv. Bestandsextensie is xls-formaat en
bestandsomvang is 250 MB)
4. Gestructureerde, semigestructureerde en
ongestructureerde data
• Gestructureerd: structurering in een vooraf gedefineerd formaat en
eenvoudig te analyseren (Bv. Excelbestanden)
• Semigestructureerd: enige vorm van structurering, maar bestaan
niet in een vooraf gedefineerd formaat waardoor ze niet geschikt zijn
om te tabelleren
Bv. e-mails (kunnen nog verschillen in formaat)
, • Ongestructureerd: geen enkele vorm van structurering en geen
vooraf gedefineerd formaat (vb. vrije tekst, foto’s)
2 culturen in modelleren van data
Doel: relatie tussen variabelen bekijken
Statistiek (datamodellen): spreken in kansen (zoveel kans op…)
vs
data science (algoritmische modellen): definitie maken die relatie in kaart
brengt
Big data
Big data in wetenschappelijk onderzoek
Wat zijn big data en wat is er nieuw aan?
- Expontentieel toename van data door dataficatie: menselijke
activiteiten, gebeurtenissen… zijn gegevens die verwerkt worden
door computers
Sprake van big data indien sprake van 3 V’s:
- Volume: grote hoeveelheden data, geen steekproeven genomen
- Velocity (= snelheid): data wordt heel snel verzameld
- Variety (= verscheidenheid): heel veel soorten data (tekst, cijfers,
beelden…)
Onderzoekstoepassingen voor big data
Data-driven benadering:
= kijken naar wat de data verteld conclusie trekken
Met behulp van data mining tools: zoeken naar patronen, analyses,
verbanden… in data
Hypothesis-driven of theory-driven benadering:
= op basis van theorie wordt een hypothese opgesteld die vervolgens
wordt getoets aan de hand van beschikbare gegevens
Voor- en nadelen gebruik van Big Data
, Voordelen:
• Geen steekproeven nodig
• Combinatie van databronnen (en onafhankelijk van vraag- en
antwoordeffecten)
Bv. Geen sociaal wenselijke antwoorden: mensen geven ipv een
eerlijk antwoord een antwoord dat van hen verwacht wordt
• Onverwachte verbanden of interacties
Nadelen:
• Menselijke intuïtie wordt uitgesloten: teveel data om allemaal te
onderzoeken
• Veel verbanden: ook spurieuze (= verband van variabelen die niets
met elkaar te maken hebben) of triviale verbanden (= verbanden die
niet nodig zijn voor onderzoek)
• Algemene tekortkomingen van secundaire data
• Self-fulfilling prophecies: feedbackloops (tunnelvisie)
• Bias (= vooroordelen) in analysemethoden (bv. redlining)
Conclusie: big data enkel gebruiken…
(1)bij onderzoek waarvoor het geschikt is
(2)Een instrument dat, net als andere instrumenten, van tijd tot tijd
moet worden gevalideerd en geëvalueerd
(3)Een instrument dat niet MOET worden ingezet omdat het er leuk
uitziet
Hoofdstuk 3: Digital History en big data uit het verleden
inleiding
Twee tendensen:
1. Innovatieve onderzoeksmethoden doen hun intrede in de
geschiedkundige wetenschap
2. Historical big data: door grootschalige digitalisering en toename
digital born data
Evolutie historical big data:
• Nieuwe methodologische fase in het onderzoek naar historische
fenomenen