Samenvatting L-Dataverwerking
Hoofdstuk 1 Data Voorbereiden
Inleiding
Een database
= een gestructureerde verzameling gegevens waarin de data op zo’n manier zijn geordend
dat ze vlot toegankelijk zijn en gemakkelijk kunnen worden aangepast, ongeacht de omvang
van de dataset
Eigenschappen van goede database
- Persistentie
- Doorzoekbaarheid
- Gemakkelijk te delen
- Problemen met ontbrekende, onvolledige of foutieve gegevens goed behandelbaar
Verschillende instrumenten (types databases)
1. Mappen
2. Referentiemanagementprogramma’s
3. Content-managementsystemen
4. Uit digitale bibliotheek van universiteit
5. Repositoiries
6. Onderzoeksdatabanken
Datamodellen
1. Individuele tabellen
2. Relationele gegevensbanken
3. Hiërarchische structuren met mark-uptaal
4. Linked (open) data met RDF
SQL
= Standaard-zoektaal voor relationele databases
Data cleaning en data transformation
Criteria voor kwaliteit gegevens
- Intrinsieke criteria: correct, objectief, betrouwbare bron, ...
- Contextuele criteria: relevant, nuttig, …
- Representatieve criteria: duidelijk gedefinieerd, goed interpreteerbaar, ...
- Toegankelijkheid
Data cleaning
= het correct coderen van ontbrekende gegevens, het verwijderen van duplicaten en het
uitzuiveren van foutieve input
- Bij
Manuele invoer
Automatische collectie
Samenwerken met anderen
- Beslissingen over missing data
Data transformation
Je past structuur van verzameling gegevens aan in functie van de onderzoeksvraag die je
wil beantwoorden
Bv
, Rijen in kolommen omzetten en omgekeerd (= transponeren)
Automatisch informatie uit verschillende tabellen combineren
Omzetten schaal of meetniveau van eigenschap/variabele
...
SQL, draaitabellen, ...
Meetniveaus
Numerieke data Categorische data
- Binair
= resultaat van een telling Data kunnen = beperkt aantal waarden door onderzoeker
2 waarden gedefinieerd
- Interval
aannemen - Nominaal
Waarden zijn volwaardige
getallen, geen intrinsiek Waarden zonder betekenisvolle
nulpunt ordening ertussen
- Ratio - Ordinaal
Waarden zijn volwaardige Waarden op betekenisvolle
getallen met intrinsiek nulpunt manier geordend
Andere opdeling
- Discreet
Geen derde waarde tussen
twee elkaar opvolgende
waarden
- Continu
Altijd derde waarde tussen
twee andere waarden
Tabellen
Eendimensionele tabel
= eerste rij of eerste kolom gebruikt als hoofding
Kruistabel
= labels zowel in eerste rij als eerste kolom
Hiërarchische tabel
= meerdere labels combineren
Een eenvoudige tabel maken in SQL
Notatie: STUDENT(ID*, VOORNAAM, FAMNAAM, STUDIE)
, Hoe aanmaken in LibreOffice Base met SQL?
CREATE TABLE STUDENT (
ID int NOT NULL
VOORNAAM var
Een complexere databank ontwerpen
Redunantie
= overbodige gegevens
Herhalingen van bepaalde informatie in tabellen
- Databank wordt nodeloos groot
- Verhoogt kans op fouten
Relationele databases
Informatie uit elkaar trekken om redunantie te vermijden
Kruisverbanden leggen
Redunantie DUS
SID: identificeert student
PID: duidt project aan
Primaire sleutel (aangeduid met ‘*’) van een record (rij) identificeert dat record (die rij) zelf
uniek, d.i. de sleutel maakt dat record uniek binnen de huidige tabel
- Helpt om te voorkomen dat bepaalde informatie dubbel staat
- Laat toe om van overal in de database te verwijzen naar dat record
Kolom ID in student = primaire sleutel van die tabel
Hoofdstuk 1 Data Voorbereiden
Inleiding
Een database
= een gestructureerde verzameling gegevens waarin de data op zo’n manier zijn geordend
dat ze vlot toegankelijk zijn en gemakkelijk kunnen worden aangepast, ongeacht de omvang
van de dataset
Eigenschappen van goede database
- Persistentie
- Doorzoekbaarheid
- Gemakkelijk te delen
- Problemen met ontbrekende, onvolledige of foutieve gegevens goed behandelbaar
Verschillende instrumenten (types databases)
1. Mappen
2. Referentiemanagementprogramma’s
3. Content-managementsystemen
4. Uit digitale bibliotheek van universiteit
5. Repositoiries
6. Onderzoeksdatabanken
Datamodellen
1. Individuele tabellen
2. Relationele gegevensbanken
3. Hiërarchische structuren met mark-uptaal
4. Linked (open) data met RDF
SQL
= Standaard-zoektaal voor relationele databases
Data cleaning en data transformation
Criteria voor kwaliteit gegevens
- Intrinsieke criteria: correct, objectief, betrouwbare bron, ...
- Contextuele criteria: relevant, nuttig, …
- Representatieve criteria: duidelijk gedefinieerd, goed interpreteerbaar, ...
- Toegankelijkheid
Data cleaning
= het correct coderen van ontbrekende gegevens, het verwijderen van duplicaten en het
uitzuiveren van foutieve input
- Bij
Manuele invoer
Automatische collectie
Samenwerken met anderen
- Beslissingen over missing data
Data transformation
Je past structuur van verzameling gegevens aan in functie van de onderzoeksvraag die je
wil beantwoorden
Bv
, Rijen in kolommen omzetten en omgekeerd (= transponeren)
Automatisch informatie uit verschillende tabellen combineren
Omzetten schaal of meetniveau van eigenschap/variabele
...
SQL, draaitabellen, ...
Meetniveaus
Numerieke data Categorische data
- Binair
= resultaat van een telling Data kunnen = beperkt aantal waarden door onderzoeker
2 waarden gedefinieerd
- Interval
aannemen - Nominaal
Waarden zijn volwaardige
getallen, geen intrinsiek Waarden zonder betekenisvolle
nulpunt ordening ertussen
- Ratio - Ordinaal
Waarden zijn volwaardige Waarden op betekenisvolle
getallen met intrinsiek nulpunt manier geordend
Andere opdeling
- Discreet
Geen derde waarde tussen
twee elkaar opvolgende
waarden
- Continu
Altijd derde waarde tussen
twee andere waarden
Tabellen
Eendimensionele tabel
= eerste rij of eerste kolom gebruikt als hoofding
Kruistabel
= labels zowel in eerste rij als eerste kolom
Hiërarchische tabel
= meerdere labels combineren
Een eenvoudige tabel maken in SQL
Notatie: STUDENT(ID*, VOORNAAM, FAMNAAM, STUDIE)
, Hoe aanmaken in LibreOffice Base met SQL?
CREATE TABLE STUDENT (
ID int NOT NULL
VOORNAAM var
Een complexere databank ontwerpen
Redunantie
= overbodige gegevens
Herhalingen van bepaalde informatie in tabellen
- Databank wordt nodeloos groot
- Verhoogt kans op fouten
Relationele databases
Informatie uit elkaar trekken om redunantie te vermijden
Kruisverbanden leggen
Redunantie DUS
SID: identificeert student
PID: duidt project aan
Primaire sleutel (aangeduid met ‘*’) van een record (rij) identificeert dat record (die rij) zelf
uniek, d.i. de sleutel maakt dat record uniek binnen de huidige tabel
- Helpt om te voorkomen dat bepaalde informatie dubbel staat
- Laat toe om van overal in de database te verwijzen naar dat record
Kolom ID in student = primaire sleutel van die tabel