Kwantitatief redeneren
Welke types onderzoek zijn er?
Fundamenteel versus toegepast
- Fundamenteel: antwoord op onderzoeksvraag zuiver vanuit
wetenschappelijke nieuwsgierigheid (geen praktische toepassing, wel
mogelijk op langere termijn)
bv. Wat leidde tot de opkomst van de zwakke werkwoordelijke vervoeging in
het Germaans? Waarom verschijnt een optioneel voorzetsel vaker voor
complexe constituenten? Bestaat het Brout-Englert-Higgs-boson?
- Toegepast onderzoek: wilt iets nuttigs doen (toepassing ontwikkelen of
verbeteren bv. plagiaatopsporing, auditieve zelftesten, …), maatschappelijk
relevant inzicht bekomen
bv. Hoe kunnen we Belgische administratieve terminologie het best
vertalen/uitleggen aan immigranten?
Kwalitatief versus kwantitatief
- Kwalitatief: data wordt rechtstreeks geanalyseerd (bv. diepte-
interviews, analyse gedicht)
- Kwantitatief: data wordt eerst verwerkt tot gestructureerde dataset,
dat wordt dan vertaald naar cijfers en die cijfers ga je interpreteren (niet
zelf interpreteren, maar via figuren, grafiek, kaart, …) niet zozeer
objectiever, verschillende stappen vaak wel meer gestandaardiseerd zodat
makkelijker te vergelijken is met voorgaand onderzoek
- Combinatie kan ook: bv. eerst kwalitatieve analyse lezersbrieven (welke
thema’s, …), dan grote verzameling lezersbrieven categoriseren in die
thema’s en dan een diachrone vergelijking maken
Empirie versus simulatie
- Empirisch onderzoek/empirie: laat zien hoe de dingen zijn
Hoe snel heeft covid zich verspreid?
- Experimenteel versus observationeel onderzoek
- experimenteel: je bouwt als onderzoeker zelf de setting waarin je
je observaties doet bv. je laat aapjes in lab komen en belachelijke
taken uitvoeren en kijken hoe ze die uitvoeren
- observationeel: je vertrekt van systematische observaties van de
werkelijkheid die je als onderzoeker zo min mogelijk probeert te
versturen
- Hypothesetoetsing versus hypothesegeneratie
- hypothesetoetsing (theorie-gedreven): start van theorie, stelt
op basis daarvan hypothese op, en test die dan aan de hand van data
bv. complexiteitsprincipe: als je keuze hebt tussen meer expliciete
grammaticale optie en meer impliciete grammaticale optie, krijgt de
expliciete de voorkeur in grammaticaal meer complexe contexten
- hypothesegeneratie (data-gedreven): je start van data, gaat
daar tendensen in zoeken, en als je er (geen) vindt, proberen
verklaring zoeken op basis van theorie
bv. voorbeeld PP toename en afname, Whiston is uitzondering >
hypothese: Whiston gaat naarmate hij ouder wordt ook bij andere
taalveranderingen meer reactionair taalgebruik vertonen?
Hypothesetoetsing bevestigt hypothese wel/niet (enkel als exact de
voorspelde tendens in de data te vinden is) <> hypothesegeneratie
levert een hypothese op (als er een tendens te vinden is)
, let op: toets hypotheses nooit aan de hand van dezelfde data
waarmee ze gegenereerd zijn (= post hoc theorizing): groot risico
op type 1-fout (vals positief)
- Simulatie: laat zien hoe de dingen zouden zijn volgens bepaalde theorie
Hoe snel verspreidt covid zich in een populatie van 200 mensen?
- Kwalitatief onderzoek (bijna) altijd empirisch, kwantitatief kan beide zijn
Voordelen experimenteel onderzoek: strikte controle over context
Voordelen observationeel onderzoek: ecologische validiteit
Oefening 2: abstracts (Blackboard)
Wat voor onderzoek is dit? (kwalitatief, kwantitatief)
- Abstract 1: kwalitatief, data wordt direct geïnterpreteerd (geen sprake van
dataset die eerst in cijfers wordt omgezet en dan visualisatie ofzo)
- Abstract 2: kwantitatief, data eerst omgezet in cijfers, daarvan worden
grafieken gemaakt en die worden geïnterpreteerd
- Abstract 3: kwantitatief, betrouwbaarheid berekenen en wordt uitgedrukt
in cijfers en dan geïnterpreteerd
- Abstract 4: kwantitatief, aantal dingen worden geteld (hoe groot zijn
verschillen in uitspraak, …)
Welk type methode wordt gebruikt? (simulatie, experimenteel, observationeel)
- Abstract 1: observationeel, geen artificiële setting waarin participanten
bepaalde taak moeten volbrengen (beetje experimenteel, dit soort
onderzoek wordt typisch gedaan door vragen te stellen en gesprek te
hebben met participanten dus misschien wel beperkt experimenteel)
- Abstract 2: observationeel, data wordt verzameld op basis van taalgebruik
dat geproduceerd is en dat komt uit een natuurlijke setting
- Abstract 3: experimenteel (niet de essays zelf die bestudeerd worden maar
wat onderzocht wordt, is de beoordeling ervan: men heeft essays
geselecteerd die later werden beoordeeld door participanten volgens
bepaalde methode van rangschikking, en die beoordelingen werden dan
vergeleken dus ging om bepaalde taak uitvoeren)
> moesten de essays zelf beoordeeld worden, zou dat wel observationeel
zijn
- Abstract 4: simulatie, geen taalgebruik uit de werkelijkheid wordt
bestudeerd, geen uitspraken die beluisterd worden, computerprogramma dat
gebouwd wordt
In geval van empirisch onderzoek, wordt er gedaan aan hypothesetoetsing of
hypothesegeneratie?
- Abstract 1: hypothesegeneratie, beschrijven zoals ze ziet (kijkt naar data
en kijkt hoe die daar gestructureerd is)
- Abstract 2: hypothesetoetsing, op basis van theorie vermoedt Julie dat in
grotere steden taalverandering sneller gaat en dat gaat ze testen door twee
taalveranderingen te bekijken
- Abstract 3: /
- Abstract 4: /
Hypothesetoetsing versus hypothesegeneratie
Hypothesegeneratie minder geloofwaardig dan hypotheses bevestigd door
hypothesetoetsing
voorbeeld hypothesegeneratie PP: to-infinitive neemt af en that-clause neemt
toe, maar als je dan erbij zet dat Whiston een uitzondering op beide vlakken is, is
het minder geloofwaardig?
,> dus de vraag of je op een idee kwam van een bepaalde hypothese en of dat
gebeurde voor je onderzoek (en dus zonder naar de data te kijken) of dat
gebeurde na je onderzoek, heeft een effect op de geloofwaardigheid van je
onderzoek terwijl de data exact identiek is!
, Voorbeeld:
Hypothesegeneratie: je bent geïnteresseerd in het woord “verliefd”
doorheen de tijd
- Je extraheert alle 1327 voorkomens van dat woord uit het historische
CCLAMP-corpus
- Je kijkt naar de data om te zien of er ergens een tendens in zit
- Hoe groot is de kans dat, hoewel er in werkelijkheid niets veranderd is bij
“verliefd”, je toch een (valse) tendens vindt in je data?
> als je vrij gemotiveerd bent iets te vinden, is die kans vrij groot want heel
veel mogelijke tendensen!
- Voor meeste van deze tendensen zijn achteraf wel aannemelijke
verklaringen te bedenken (als er niets aan de hand is, is de kans nog steeds
redelijk dat hypothesegeneratie je toch een hypothese oplevert die zinnig
klinkt
Hypothesetoetsing: je had al een hypothese, nl.: “verliefd” is ontstaan als
het voltooid deelwoord van het werkwoord “verlieven”
- Werkwoord “verlieven” is uit Nederlands verdwenen en enkel “verliefd”
overgebleven
- Taalgebruikers gaan daardoor “verliefd” minder beschouwen als voltooid
deelwoord en eerder als adjectief
- Als dat het geval is, zouden we aantal veranderingen moeten zien, zoals:
- voltooide deelwoorden hebben hun voorzetselconstituent liefst voor zich,
en adjectieven liefst achter zich
bv. voorkeur voor: de merrie is op rust gezet > de merrie is gezet op rust
bv. voorkeur voor: de merrie is boos op jou > de merrie is op jou boos
- Daaruit zou je de hypothese kunnen afleiden: als “verliefd” eerst voltooid
deelwoord was en dan adjectief geworden, dan zou vroeger “ik ben op jou
verliefd” de normale volgorde zijn geweest en is dat later “ik ben verliefd op
jou” geworden
- Dan kijken of dat het geval is: grafiek Piersoul PP
> 1840 tot 1990, voorkomens van “verliefd” volgens exbraciated (verliefd op
X) en intraposition (op X verliefd), rode lijn is verhouding en zwarte lijn is
regressielijn daardoor getrokken we zien toename van exbraciated
(verliefd op X)
> dus hypothese kon bevestigd worden!
- Wat is de kan dat, hoewel er in werkelijkheid niets veranderd met “verliefd”,
je toch exact deze (valse) tendens vindt in je data?
- hypothesegeneratie kans groter dat je iets vindt (want staat open voor
eender welk effect)
- bij hypothesetoetsing eerder klein: als er niets aan de hand is, is kans
eerder klein dat hypothesetoetsing je hypothese bevestigt
- daarom mag je na hypothesegeneratie wel zeggen dat je een hypothese
geformuleerd hebt, maar niet dat die bevestigd is (bij hypothesetoetsing
wel)
Post-hoc theorizing: je doet eerst aan hypothesegeneratie, maar stelt het
voor als hypothesetoetsing
Welke types onderzoek zijn er?
Fundamenteel versus toegepast
- Fundamenteel: antwoord op onderzoeksvraag zuiver vanuit
wetenschappelijke nieuwsgierigheid (geen praktische toepassing, wel
mogelijk op langere termijn)
bv. Wat leidde tot de opkomst van de zwakke werkwoordelijke vervoeging in
het Germaans? Waarom verschijnt een optioneel voorzetsel vaker voor
complexe constituenten? Bestaat het Brout-Englert-Higgs-boson?
- Toegepast onderzoek: wilt iets nuttigs doen (toepassing ontwikkelen of
verbeteren bv. plagiaatopsporing, auditieve zelftesten, …), maatschappelijk
relevant inzicht bekomen
bv. Hoe kunnen we Belgische administratieve terminologie het best
vertalen/uitleggen aan immigranten?
Kwalitatief versus kwantitatief
- Kwalitatief: data wordt rechtstreeks geanalyseerd (bv. diepte-
interviews, analyse gedicht)
- Kwantitatief: data wordt eerst verwerkt tot gestructureerde dataset,
dat wordt dan vertaald naar cijfers en die cijfers ga je interpreteren (niet
zelf interpreteren, maar via figuren, grafiek, kaart, …) niet zozeer
objectiever, verschillende stappen vaak wel meer gestandaardiseerd zodat
makkelijker te vergelijken is met voorgaand onderzoek
- Combinatie kan ook: bv. eerst kwalitatieve analyse lezersbrieven (welke
thema’s, …), dan grote verzameling lezersbrieven categoriseren in die
thema’s en dan een diachrone vergelijking maken
Empirie versus simulatie
- Empirisch onderzoek/empirie: laat zien hoe de dingen zijn
Hoe snel heeft covid zich verspreid?
- Experimenteel versus observationeel onderzoek
- experimenteel: je bouwt als onderzoeker zelf de setting waarin je
je observaties doet bv. je laat aapjes in lab komen en belachelijke
taken uitvoeren en kijken hoe ze die uitvoeren
- observationeel: je vertrekt van systematische observaties van de
werkelijkheid die je als onderzoeker zo min mogelijk probeert te
versturen
- Hypothesetoetsing versus hypothesegeneratie
- hypothesetoetsing (theorie-gedreven): start van theorie, stelt
op basis daarvan hypothese op, en test die dan aan de hand van data
bv. complexiteitsprincipe: als je keuze hebt tussen meer expliciete
grammaticale optie en meer impliciete grammaticale optie, krijgt de
expliciete de voorkeur in grammaticaal meer complexe contexten
- hypothesegeneratie (data-gedreven): je start van data, gaat
daar tendensen in zoeken, en als je er (geen) vindt, proberen
verklaring zoeken op basis van theorie
bv. voorbeeld PP toename en afname, Whiston is uitzondering >
hypothese: Whiston gaat naarmate hij ouder wordt ook bij andere
taalveranderingen meer reactionair taalgebruik vertonen?
Hypothesetoetsing bevestigt hypothese wel/niet (enkel als exact de
voorspelde tendens in de data te vinden is) <> hypothesegeneratie
levert een hypothese op (als er een tendens te vinden is)
, let op: toets hypotheses nooit aan de hand van dezelfde data
waarmee ze gegenereerd zijn (= post hoc theorizing): groot risico
op type 1-fout (vals positief)
- Simulatie: laat zien hoe de dingen zouden zijn volgens bepaalde theorie
Hoe snel verspreidt covid zich in een populatie van 200 mensen?
- Kwalitatief onderzoek (bijna) altijd empirisch, kwantitatief kan beide zijn
Voordelen experimenteel onderzoek: strikte controle over context
Voordelen observationeel onderzoek: ecologische validiteit
Oefening 2: abstracts (Blackboard)
Wat voor onderzoek is dit? (kwalitatief, kwantitatief)
- Abstract 1: kwalitatief, data wordt direct geïnterpreteerd (geen sprake van
dataset die eerst in cijfers wordt omgezet en dan visualisatie ofzo)
- Abstract 2: kwantitatief, data eerst omgezet in cijfers, daarvan worden
grafieken gemaakt en die worden geïnterpreteerd
- Abstract 3: kwantitatief, betrouwbaarheid berekenen en wordt uitgedrukt
in cijfers en dan geïnterpreteerd
- Abstract 4: kwantitatief, aantal dingen worden geteld (hoe groot zijn
verschillen in uitspraak, …)
Welk type methode wordt gebruikt? (simulatie, experimenteel, observationeel)
- Abstract 1: observationeel, geen artificiële setting waarin participanten
bepaalde taak moeten volbrengen (beetje experimenteel, dit soort
onderzoek wordt typisch gedaan door vragen te stellen en gesprek te
hebben met participanten dus misschien wel beperkt experimenteel)
- Abstract 2: observationeel, data wordt verzameld op basis van taalgebruik
dat geproduceerd is en dat komt uit een natuurlijke setting
- Abstract 3: experimenteel (niet de essays zelf die bestudeerd worden maar
wat onderzocht wordt, is de beoordeling ervan: men heeft essays
geselecteerd die later werden beoordeeld door participanten volgens
bepaalde methode van rangschikking, en die beoordelingen werden dan
vergeleken dus ging om bepaalde taak uitvoeren)
> moesten de essays zelf beoordeeld worden, zou dat wel observationeel
zijn
- Abstract 4: simulatie, geen taalgebruik uit de werkelijkheid wordt
bestudeerd, geen uitspraken die beluisterd worden, computerprogramma dat
gebouwd wordt
In geval van empirisch onderzoek, wordt er gedaan aan hypothesetoetsing of
hypothesegeneratie?
- Abstract 1: hypothesegeneratie, beschrijven zoals ze ziet (kijkt naar data
en kijkt hoe die daar gestructureerd is)
- Abstract 2: hypothesetoetsing, op basis van theorie vermoedt Julie dat in
grotere steden taalverandering sneller gaat en dat gaat ze testen door twee
taalveranderingen te bekijken
- Abstract 3: /
- Abstract 4: /
Hypothesetoetsing versus hypothesegeneratie
Hypothesegeneratie minder geloofwaardig dan hypotheses bevestigd door
hypothesetoetsing
voorbeeld hypothesegeneratie PP: to-infinitive neemt af en that-clause neemt
toe, maar als je dan erbij zet dat Whiston een uitzondering op beide vlakken is, is
het minder geloofwaardig?
,> dus de vraag of je op een idee kwam van een bepaalde hypothese en of dat
gebeurde voor je onderzoek (en dus zonder naar de data te kijken) of dat
gebeurde na je onderzoek, heeft een effect op de geloofwaardigheid van je
onderzoek terwijl de data exact identiek is!
, Voorbeeld:
Hypothesegeneratie: je bent geïnteresseerd in het woord “verliefd”
doorheen de tijd
- Je extraheert alle 1327 voorkomens van dat woord uit het historische
CCLAMP-corpus
- Je kijkt naar de data om te zien of er ergens een tendens in zit
- Hoe groot is de kans dat, hoewel er in werkelijkheid niets veranderd is bij
“verliefd”, je toch een (valse) tendens vindt in je data?
> als je vrij gemotiveerd bent iets te vinden, is die kans vrij groot want heel
veel mogelijke tendensen!
- Voor meeste van deze tendensen zijn achteraf wel aannemelijke
verklaringen te bedenken (als er niets aan de hand is, is de kans nog steeds
redelijk dat hypothesegeneratie je toch een hypothese oplevert die zinnig
klinkt
Hypothesetoetsing: je had al een hypothese, nl.: “verliefd” is ontstaan als
het voltooid deelwoord van het werkwoord “verlieven”
- Werkwoord “verlieven” is uit Nederlands verdwenen en enkel “verliefd”
overgebleven
- Taalgebruikers gaan daardoor “verliefd” minder beschouwen als voltooid
deelwoord en eerder als adjectief
- Als dat het geval is, zouden we aantal veranderingen moeten zien, zoals:
- voltooide deelwoorden hebben hun voorzetselconstituent liefst voor zich,
en adjectieven liefst achter zich
bv. voorkeur voor: de merrie is op rust gezet > de merrie is gezet op rust
bv. voorkeur voor: de merrie is boos op jou > de merrie is op jou boos
- Daaruit zou je de hypothese kunnen afleiden: als “verliefd” eerst voltooid
deelwoord was en dan adjectief geworden, dan zou vroeger “ik ben op jou
verliefd” de normale volgorde zijn geweest en is dat later “ik ben verliefd op
jou” geworden
- Dan kijken of dat het geval is: grafiek Piersoul PP
> 1840 tot 1990, voorkomens van “verliefd” volgens exbraciated (verliefd op
X) en intraposition (op X verliefd), rode lijn is verhouding en zwarte lijn is
regressielijn daardoor getrokken we zien toename van exbraciated
(verliefd op X)
> dus hypothese kon bevestigd worden!
- Wat is de kan dat, hoewel er in werkelijkheid niets veranderd met “verliefd”,
je toch exact deze (valse) tendens vindt in je data?
- hypothesegeneratie kans groter dat je iets vindt (want staat open voor
eender welk effect)
- bij hypothesetoetsing eerder klein: als er niets aan de hand is, is kans
eerder klein dat hypothesetoetsing je hypothese bevestigt
- daarom mag je na hypothesegeneratie wel zeggen dat je een hypothese
geformuleerd hebt, maar niet dat die bevestigd is (bij hypothesetoetsing
wel)
Post-hoc theorizing: je doet eerst aan hypothesegeneratie, maar stelt het
voor als hypothesetoetsing