100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Samenvatting

Samenvatting MIDTERM Onderzoekspracticum 3: Taal- en informatietechnologie

Beoordeling
4,0
(1)
Verkocht
5
Pagina's
28
Geüpload op
05-04-2021
Geschreven in
2020/2021

Samenvatting van de powerpoint + aantekeningen bij de colleges.











Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
5 april 2021
Aantal pagina's
28
Geschreven in
2020/2021
Type
Samenvatting

Onderwerpen

Voorbeeld van de inhoud

ONDERZOEKSPRACTICUM 3:
TAAL- EN
INFORMATIETECHNOLOGIE
KWANTITATIEVE INHOUDSANALYSE (CONTENTANALYSE)

NEUENDORF (2017)

Content analysis flowchart:
1) Theory and rationale (theorie en motivatie).
2) Conceptualization decisions (constructen operationaliseren en defineren).
3) Operationalization measures (wat voor units ga je verzamelen, categoriseren en coderen?)
4) Creating a coding scheme (categoriseren):
a. Mensen (= handmatig): Creëer een codeboek en een codeerschema/codeerformulier.
b. Computers: Specificeer een procedure. VB: Maak een woordenlijst, als dit woord voorkomt in het
bericht hoort het bericht in deze categorie
5) Sampling:
a. Kan je een census uitvoeren? (= alle data die je er is vinden)
 Dan zou je alle data die er is kunnen analyseren, vaak is dat nogal veel. Dus  Subset.
b. Zo niet: Hoe ga je de data dan samplen en hoe zorg ik dat het een representatief beeld geeft van
de algehele populatie?
6) Trainen van de codeurs, checken van de betrouwbaarheid, anders het codeboek herzien.
7) Coding:
a. Mensen: Gebruik minimaal twee onafhankelijke codeurs, met ten minste 10% overlap.
b. Computers: Controleer hier en daar of de computer het goed doet (“spot checking”). Controleer
met mensen of het proces goed verlopen is (sample van wat de computer heeft gedaan checken
of het klopt).
8) Final reliability (betrouwbaarheid checken van alle variabelen, die 10% overlap vergelijken).
9) Tabulation and reporting (rapporteren, in een tabel weergeven).

,PRISMA

De PRISMA-richtlijnen (voor literatuuronderzoek):
 Bijzonder soort annotatieproces: Systematische
review
1. Zoek voor papers met specifieke zoektermen.
2. Duplicaten verwijderen.
3. Beoordeel de geschiktheid van de studies
(voldoen ze aan criteria?).
4. Analyseer de relevante studies, en verzamel
relevante informatie.
5. Rapporteer descriptieve statistieken.


PRISMA flowcharts maakt het proces expliciet 


PRISMA:
 Nuttig als gids voor systematische reviews.
 Helpt ook om na te denken over dataverzameling in het algemeen.
 Geen richtlijnen over het daadwerkelijk coderen van de data.


PUSTEJOVSKI & STUBBS (2013)

Een annotatieschema ontwikkelen:
 Annotatieschema of codeboek:
- Een handleiding om data te annoteren.
- Gedetailleerd genoeg zodat anderen de taak ook kunnen uitvoeren, met vergelijkbare resultaten.
- Met andere woorden: onderzoek moet reproduceerbaar zijn.
 Reproduceerbaarheid:
- In hoeverre anderen met jouw data en annotatieschema dezelfde resultaten kunnen bereiken.
- Met andere woorden: kun je een hoge overeenstemming (agreement) bereiken?


MATTER: Data voorbereiden voor computers:




 Het algemene idee achter MATTER:
- Codeurs breiden trainingsdata voor, die een computer kan gebruiken om de annotatietaak te
automatiseren in de toekomst.
- Daarna moeten we bepalen of de taak haalbaar is voor computers.

, - Nadat we de computer geleerd hebben hoe hij moet annoteren, kun je het systeem testen op
data die de computer niet eerder gezien heeft.
- Er zijn twee soorten testdata:
1. Development: Tijdens het ontwikkelen kun je hiermee kijken of je systeem verbetert.
2. Test: Als de ontwikkeling klaar is, kun je hiermee voorspellen hoe goed het systeem zal
werken op andere data.
 Waarom moeten wij dit weten?
- Als je computers data wilt laten annoteren, moet je op zijn minst weten waar de computer die
annotatiekennis vandaan heeft en hoe het werkt.
 Kijk altijd naar:
- Hoe betrouwbaar is de computer überhaupt? (F1-score)
- Was de trainingsdata voor de computer vergelijkbaar met mijn domein?
- Werkt het systeem ook echt voor mijn data? (Kloppen de eerste resultaten?)


MAMA:
 Maar:
- Meestal willen we niet zelf een computer trainen.
- De opstartfase van MATTER is dan relevanter (annotatieschema opstellen).
- Pustejovsky and Stubbs (2013) noemen die fase MAMA.
- Dat staat voor: Model-Annotate-Model-Annotate.


1) Model and guidelines: You need to have a solid understanding of the domain. What are the relevant
categories that you want to distinguish? What are the possibilities?
2) Annotate: Then you need to develop instructions to codify the annotation process. Provide clear
definitions and examples, and perhaps a flow chart to show how to decide which category to choose.
Annotate some data together with your colleague, without showing each other how you annotated
the data.
3) Evaluate: Compare the results of the previous step, and determine your inter-annotator agreement
(also known as inter-coder reliability). You can also compute a confusion matrix to understand where
most disagreements occur.
4) Revise: Adjudicate disagreements with your colleague, and refine the model and annotation scheme.
Then look at some more data with your colleague to repeat the evaluation phase.


RECYCLEN

Codeboek hergebruiken:
 Als je iets wil annoteren, zijn er meestal mensen die dat voor je hebben gedaan.
 Zij hebben dan al een codeboek, en dat scheelt een hoop werk.
 Waar vind je die dan?
- Papers over jouw onderwerp.
- Speciale journals en conferenties:
 Behavior Research Methods (BRM), en de
 Language Resources and Evaluation Conference (LREC).

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven
4 jaar geleden

4,0

1 beoordelingen

5
0
4
1
3
0
2
0
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
nienkebreugelmans Tilburg University
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
42
Lid sinds
6 jaar
Aantal volgers
29
Documenten
6
Laatst verkocht
10 maanden geleden

4,6

5 beoordelingen

5
3
4
2
3
0
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen