100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Samenvatting MIDTERM Onderzoekspracticum 3: Taal- en informatietechnologie

Rating
4.0
(1)
Sold
5
Pages
28
Uploaded on
05-04-2021
Written in
2020/2021

Samenvatting van de powerpoint + aantekeningen bij de colleges.

Institution
Course










Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Course

Document information

Uploaded on
April 5, 2021
Number of pages
28
Written in
2020/2021
Type
Summary

Subjects

Content preview

ONDERZOEKSPRACTICUM 3:
TAAL- EN
INFORMATIETECHNOLOGIE
KWANTITATIEVE INHOUDSANALYSE (CONTENTANALYSE)

NEUENDORF (2017)

Content analysis flowchart:
1) Theory and rationale (theorie en motivatie).
2) Conceptualization decisions (constructen operationaliseren en defineren).
3) Operationalization measures (wat voor units ga je verzamelen, categoriseren en coderen?)
4) Creating a coding scheme (categoriseren):
a. Mensen (= handmatig): Creëer een codeboek en een codeerschema/codeerformulier.
b. Computers: Specificeer een procedure. VB: Maak een woordenlijst, als dit woord voorkomt in het
bericht hoort het bericht in deze categorie
5) Sampling:
a. Kan je een census uitvoeren? (= alle data die je er is vinden)
 Dan zou je alle data die er is kunnen analyseren, vaak is dat nogal veel. Dus  Subset.
b. Zo niet: Hoe ga je de data dan samplen en hoe zorg ik dat het een representatief beeld geeft van
de algehele populatie?
6) Trainen van de codeurs, checken van de betrouwbaarheid, anders het codeboek herzien.
7) Coding:
a. Mensen: Gebruik minimaal twee onafhankelijke codeurs, met ten minste 10% overlap.
b. Computers: Controleer hier en daar of de computer het goed doet (“spot checking”). Controleer
met mensen of het proces goed verlopen is (sample van wat de computer heeft gedaan checken
of het klopt).
8) Final reliability (betrouwbaarheid checken van alle variabelen, die 10% overlap vergelijken).
9) Tabulation and reporting (rapporteren, in een tabel weergeven).

,PRISMA

De PRISMA-richtlijnen (voor literatuuronderzoek):
 Bijzonder soort annotatieproces: Systematische
review
1. Zoek voor papers met specifieke zoektermen.
2. Duplicaten verwijderen.
3. Beoordeel de geschiktheid van de studies
(voldoen ze aan criteria?).
4. Analyseer de relevante studies, en verzamel
relevante informatie.
5. Rapporteer descriptieve statistieken.


PRISMA flowcharts maakt het proces expliciet 


PRISMA:
 Nuttig als gids voor systematische reviews.
 Helpt ook om na te denken over dataverzameling in het algemeen.
 Geen richtlijnen over het daadwerkelijk coderen van de data.


PUSTEJOVSKI & STUBBS (2013)

Een annotatieschema ontwikkelen:
 Annotatieschema of codeboek:
- Een handleiding om data te annoteren.
- Gedetailleerd genoeg zodat anderen de taak ook kunnen uitvoeren, met vergelijkbare resultaten.
- Met andere woorden: onderzoek moet reproduceerbaar zijn.
 Reproduceerbaarheid:
- In hoeverre anderen met jouw data en annotatieschema dezelfde resultaten kunnen bereiken.
- Met andere woorden: kun je een hoge overeenstemming (agreement) bereiken?


MATTER: Data voorbereiden voor computers:




 Het algemene idee achter MATTER:
- Codeurs breiden trainingsdata voor, die een computer kan gebruiken om de annotatietaak te
automatiseren in de toekomst.
- Daarna moeten we bepalen of de taak haalbaar is voor computers.

, - Nadat we de computer geleerd hebben hoe hij moet annoteren, kun je het systeem testen op
data die de computer niet eerder gezien heeft.
- Er zijn twee soorten testdata:
1. Development: Tijdens het ontwikkelen kun je hiermee kijken of je systeem verbetert.
2. Test: Als de ontwikkeling klaar is, kun je hiermee voorspellen hoe goed het systeem zal
werken op andere data.
 Waarom moeten wij dit weten?
- Als je computers data wilt laten annoteren, moet je op zijn minst weten waar de computer die
annotatiekennis vandaan heeft en hoe het werkt.
 Kijk altijd naar:
- Hoe betrouwbaar is de computer überhaupt? (F1-score)
- Was de trainingsdata voor de computer vergelijkbaar met mijn domein?
- Werkt het systeem ook echt voor mijn data? (Kloppen de eerste resultaten?)


MAMA:
 Maar:
- Meestal willen we niet zelf een computer trainen.
- De opstartfase van MATTER is dan relevanter (annotatieschema opstellen).
- Pustejovsky and Stubbs (2013) noemen die fase MAMA.
- Dat staat voor: Model-Annotate-Model-Annotate.


1) Model and guidelines: You need to have a solid understanding of the domain. What are the relevant
categories that you want to distinguish? What are the possibilities?
2) Annotate: Then you need to develop instructions to codify the annotation process. Provide clear
definitions and examples, and perhaps a flow chart to show how to decide which category to choose.
Annotate some data together with your colleague, without showing each other how you annotated
the data.
3) Evaluate: Compare the results of the previous step, and determine your inter-annotator agreement
(also known as inter-coder reliability). You can also compute a confusion matrix to understand where
most disagreements occur.
4) Revise: Adjudicate disagreements with your colleague, and refine the model and annotation scheme.
Then look at some more data with your colleague to repeat the evaluation phase.


RECYCLEN

Codeboek hergebruiken:
 Als je iets wil annoteren, zijn er meestal mensen die dat voor je hebben gedaan.
 Zij hebben dan al een codeboek, en dat scheelt een hoop werk.
 Waar vind je die dan?
- Papers over jouw onderwerp.
- Speciale journals en conferenties:
 Behavior Research Methods (BRM), en de
 Language Resources and Evaluation Conference (LREC).

Reviews from verified buyers

Showing all reviews
4 year ago

4.0

1 reviews

5
0
4
1
3
0
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
nienkebreugelmans Tilburg University
Follow You need to be logged in order to follow users or courses
Sold
42
Member since
6 year
Number of followers
29
Documents
6
Last sold
10 months ago

4.6

5 reviews

5
3
4
2
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions