Big data & innovatieve methoden voor criminologisch onderzoek
Innovatieve kwantitatieve methoden | Fauve Duprez
hoofdstukken die niet behandeld worden:
H5: noodzaak van actieonderzoek
H6: juridische beschouwingen
Hoofdstuk 1: Nieuwe technologieën als motor voor innovaties in criminologisch
onderzoek
1. Inleiding
2. De vierde industriële revolutie en nieuwe technologieën
3. Data
3.1. Soorten data
3.1.1. Kwalitatieve en kwantitatieve data
3.1.2. Primaire, secundaire en tertiaire data
3.1.4. Index-, attribuut- en metadata
3.1.5. Gestructureerde, semigestructureerde en ongestructureerde data
3.1.6. Primitieve en niet-primitieve data
4. Twee culturen in het modelleren van data
1. Inleiding
Dit verzamelwerk behandelt (2) belangrijke academische ontwikkelingen:
Gebruik van big-data-analysemethoden
Uitdaging om disciplines bijeen te brengen
De criminoloog van morgen is maar zo sterk als het instrumentarium waarover hij/zij
beschikt
Want: criminologen moeten over andere competenties en vaardigheden beschikken omwille
van de verscheidenheid aan innovatie methoden
Methodologisch onderwijs als basis ontbreken handboek vergemakkelijkt de inbedding
niet
2.
Fase 4 draait om complexere data-analyse, slimme patronenherkenning en verbeterde
interactie tussen mens en computer.
,3. Data
Onder invloed van nieuwe technologieën wordt veel meer data gegenereerd
3.1.1. Kwalitatieve en kwantitatieve data
Kwalitatief = niet-numerieke data
Bv. Tekst, foto’s, video’s, geluid
Dit kan gekwantificeerd worden
Kwantitatief = numerieke data
Nominale variabelen: categorisatie (bv. haarkleur)
Ordinale variabelen: ordening in categorieën (bv. opleidingsniveau)
Intervalvariabelen: gelijke verschillen tussen de categorieën (bv. verschil 0°C en
5°C = verschil 20°C en 25°C)
Ratiovariabelen: absoluut nulpunt (bv. leeftijd)
3.1.2. Primaire, secundaire en tertiaire data
- Primair: data wordt gebruikt door de onderzoekers die ze zelf verzameld hebben
(bv door enquete / interview)
- Secundair: verzameld door anderen voor andere (primaire) doeleinden
Bv. Politiediensten die criminaliteitscijfers bijhouden
Tertiair: komt voor uit de verwerking van primair en secundaire data
3.1.4. Index-, attribuut- en metadata
Indexdata:
data die identificatie en koppeling mogelijk maken = unieke identificatoren
(bv. Studentennummer, rijksregister nummer)
Attribuutdata:
data over aspecten van een bepaald verschijnsel, maar niet indexerend van aard
(bv. Geslacht, leeftijd)
Metadata:
Beschrijvende metadata: beschrijft inhoud van een resource zodat die makkelijk
gevonden kan worden (bv. Resp. burgerservice- of rijksregisternummer)
Structurele metadata: betrekking op de interne structuur, legt opbouw en regels uit
van
data (bv. Leeftijd moet een integer getal zijn tussen 0 en 120)
, Administratieve metadata: betrekking op het databestand an sich,vertelt
technische
details over bestend (bv. Bestandsextensie is xls-formaat en bestandsomvang is
250 MB)
3.1.5. Gestructureerde, semigestructureerde en ongestructureerde data
Gestructureerd: structurering in een vooraf gedefineerd formaat en eenvoudig te
analyseren
Bv. Excelbestanden
Semigestructureerd: enige vorm van structurering, maar bestaan niet in een vooraf
gedefineerd formaat waardoor ze niet geschikt zijn om te tabelleren
Bv. XML4-gelabelde webpagina’s of e-mails
Ongestructureerd: geen enkele vorm van structurering en geen vooraf gedefineerd
formaat
Bv. Kwalitatieve data zoals vrije tekst of foto’s
3.1.6. Primitieve en niet-primitieve data
Primitief: datastructuren die direct worden ondersteund door machines en waarop
operaties
kunnen worden uitgevoerd.
Bv. Integers (gehele getallen), floating point numbers (kommagetallen), characters
(karakters zoals letters en symbolen), booleans (Booleaanse operatoren: True of False)
Niet-primitief: data die wordt gecreëerd door degene die de data manipuleert en zijn
opgebouwd uit primitieve data-eenheden
Bv. Strings (verzameling van characters) en arrays (meerdere waarden in één
variabele)
Deze data vragen doorgaans een andere
aanpak dan conventionele databronnen
, Hoofdstuk 2: Big data in wetenschappelijk onderzoek
1. Wat zijn big data en wat is er nieuw aan?
2. Onderzoekstoepassingen voor big data
3. Voor- en nadelen
1. Wat zijn big data en wat is er nieuw aan?
Enorme toename van data, ook met criminologische relevantie
Exponentieel, omwille van dataficatie
Menselijke activiteiten, gebeurtenissen, objecten naar gegevens omzetten
Karakteristieken big data op basis van 3 V’s:
1 Volume:
Big data gaan om grote grote hoeveelheden data, geen steekproeven genomen
2 Velocity (snelheid):
Big data verzameld zich snel en zijn doorgaans real-time
3 Variety (verscheidenheid):
Big data betreft verschillende soorten data: tekst, cijfers, beelden, geluid en vele
andere formats
2. Onderzoekstoepassingen voor big data
Data-driven benadering:
= Er wordt gekeken naar wat de data te vertellen hebben
Met behulp van data mining tools
Zoeken naar eigenschappen die samenhangen in een database
Vb. onderzoek klantenkoopgedrag
Hypothesis-driven of theory-driven benadering:
= op basis van theorie wordt een hypothese opgesteld die vervolgens wordt
beantwoord aan de
hand van beschikbare gegevens
Vereist voorkennis
Innovatieve kwantitatieve methoden | Fauve Duprez
hoofdstukken die niet behandeld worden:
H5: noodzaak van actieonderzoek
H6: juridische beschouwingen
Hoofdstuk 1: Nieuwe technologieën als motor voor innovaties in criminologisch
onderzoek
1. Inleiding
2. De vierde industriële revolutie en nieuwe technologieën
3. Data
3.1. Soorten data
3.1.1. Kwalitatieve en kwantitatieve data
3.1.2. Primaire, secundaire en tertiaire data
3.1.4. Index-, attribuut- en metadata
3.1.5. Gestructureerde, semigestructureerde en ongestructureerde data
3.1.6. Primitieve en niet-primitieve data
4. Twee culturen in het modelleren van data
1. Inleiding
Dit verzamelwerk behandelt (2) belangrijke academische ontwikkelingen:
Gebruik van big-data-analysemethoden
Uitdaging om disciplines bijeen te brengen
De criminoloog van morgen is maar zo sterk als het instrumentarium waarover hij/zij
beschikt
Want: criminologen moeten over andere competenties en vaardigheden beschikken omwille
van de verscheidenheid aan innovatie methoden
Methodologisch onderwijs als basis ontbreken handboek vergemakkelijkt de inbedding
niet
2.
Fase 4 draait om complexere data-analyse, slimme patronenherkenning en verbeterde
interactie tussen mens en computer.
,3. Data
Onder invloed van nieuwe technologieën wordt veel meer data gegenereerd
3.1.1. Kwalitatieve en kwantitatieve data
Kwalitatief = niet-numerieke data
Bv. Tekst, foto’s, video’s, geluid
Dit kan gekwantificeerd worden
Kwantitatief = numerieke data
Nominale variabelen: categorisatie (bv. haarkleur)
Ordinale variabelen: ordening in categorieën (bv. opleidingsniveau)
Intervalvariabelen: gelijke verschillen tussen de categorieën (bv. verschil 0°C en
5°C = verschil 20°C en 25°C)
Ratiovariabelen: absoluut nulpunt (bv. leeftijd)
3.1.2. Primaire, secundaire en tertiaire data
- Primair: data wordt gebruikt door de onderzoekers die ze zelf verzameld hebben
(bv door enquete / interview)
- Secundair: verzameld door anderen voor andere (primaire) doeleinden
Bv. Politiediensten die criminaliteitscijfers bijhouden
Tertiair: komt voor uit de verwerking van primair en secundaire data
3.1.4. Index-, attribuut- en metadata
Indexdata:
data die identificatie en koppeling mogelijk maken = unieke identificatoren
(bv. Studentennummer, rijksregister nummer)
Attribuutdata:
data over aspecten van een bepaald verschijnsel, maar niet indexerend van aard
(bv. Geslacht, leeftijd)
Metadata:
Beschrijvende metadata: beschrijft inhoud van een resource zodat die makkelijk
gevonden kan worden (bv. Resp. burgerservice- of rijksregisternummer)
Structurele metadata: betrekking op de interne structuur, legt opbouw en regels uit
van
data (bv. Leeftijd moet een integer getal zijn tussen 0 en 120)
, Administratieve metadata: betrekking op het databestand an sich,vertelt
technische
details over bestend (bv. Bestandsextensie is xls-formaat en bestandsomvang is
250 MB)
3.1.5. Gestructureerde, semigestructureerde en ongestructureerde data
Gestructureerd: structurering in een vooraf gedefineerd formaat en eenvoudig te
analyseren
Bv. Excelbestanden
Semigestructureerd: enige vorm van structurering, maar bestaan niet in een vooraf
gedefineerd formaat waardoor ze niet geschikt zijn om te tabelleren
Bv. XML4-gelabelde webpagina’s of e-mails
Ongestructureerd: geen enkele vorm van structurering en geen vooraf gedefineerd
formaat
Bv. Kwalitatieve data zoals vrije tekst of foto’s
3.1.6. Primitieve en niet-primitieve data
Primitief: datastructuren die direct worden ondersteund door machines en waarop
operaties
kunnen worden uitgevoerd.
Bv. Integers (gehele getallen), floating point numbers (kommagetallen), characters
(karakters zoals letters en symbolen), booleans (Booleaanse operatoren: True of False)
Niet-primitief: data die wordt gecreëerd door degene die de data manipuleert en zijn
opgebouwd uit primitieve data-eenheden
Bv. Strings (verzameling van characters) en arrays (meerdere waarden in één
variabele)
Deze data vragen doorgaans een andere
aanpak dan conventionele databronnen
, Hoofdstuk 2: Big data in wetenschappelijk onderzoek
1. Wat zijn big data en wat is er nieuw aan?
2. Onderzoekstoepassingen voor big data
3. Voor- en nadelen
1. Wat zijn big data en wat is er nieuw aan?
Enorme toename van data, ook met criminologische relevantie
Exponentieel, omwille van dataficatie
Menselijke activiteiten, gebeurtenissen, objecten naar gegevens omzetten
Karakteristieken big data op basis van 3 V’s:
1 Volume:
Big data gaan om grote grote hoeveelheden data, geen steekproeven genomen
2 Velocity (snelheid):
Big data verzameld zich snel en zijn doorgaans real-time
3 Variety (verscheidenheid):
Big data betreft verschillende soorten data: tekst, cijfers, beelden, geluid en vele
andere formats
2. Onderzoekstoepassingen voor big data
Data-driven benadering:
= Er wordt gekeken naar wat de data te vertellen hebben
Met behulp van data mining tools
Zoeken naar eigenschappen die samenhangen in een database
Vb. onderzoek klantenkoopgedrag
Hypothesis-driven of theory-driven benadering:
= op basis van theorie wordt een hypothese opgesteld die vervolgens wordt
beantwoord aan de
hand van beschikbare gegevens
Vereist voorkennis