Les 3: tekstcollecties analyseren en visualiseren
Concordanties
Concordantie = woordgebruik in context
Distant reading → automatische analyse van tekst
• Grote volume tekst analyseren
• bijv. computationele literatuurwetenschappen (computational literary studies)
Populaire methodes tekstanalyse:
• Concordanties: woordgebruik in context
• Topic modeling: identificatie van belangrijke thema’s/topics
• Stylometrie: statistische analyse / bestuderen van schrijfstijl (lexicale en
syntactische informatie)
Stylometrie: toepassingen
- Bepalen van auteurschap (authorship attribution)
- Forensische taalkunde
Autorship attribution
→ Bepalen op basis van lexicale en syntactische kenmerken wie de auteur van een
tekst is
Bv: frequenties van functiewoorden, PoS-patronen, frequente opeenvolging van
woorden
Bekende voorbeelden:
• Authenticiteit van werken van Shakespeare (Frantzeskou et al., 2006)
, • JK Rawling / Robert Calbraith (pseudoniem)
Forensische taalkunde
➔ Alles wat met taal en wet/strafrecht te maken heeft
• Forensische fonetiek: identificeren van een spreker met spraak- en stemanalyse
• Bestuderen van juridische en strafrechtelijk interessante teksten, bijv.
dreigbrieven, chantagebrieven, plagiaat, bekentenissen, testamenten, … waarvan
de precieze auteur niet bekend is.
Doel: achterhalen van de auteur van anonieme teksten (analyse van handschrift,
schrijfstijl)
Bekend voorbeeld: Unabomber case
- 16 bommen (verschillende locaties in Amerika)
- Manifest van de dader (35,000 woorden) in krant
- Broer herkent schrijfstijl en belt de politie
Frequenties van woorden
Woordfrequentie analyseren om te onderzoeken hoe belangrijk woorden zijn in een
corpus
Frequentie = aantal keer dat woord voorkomt in corpus
➢ absolute frequentie /vs/
Relatieve frequentie = frequentie / aantal woorden in corpus
=> Belang van relatieve frequentie: frequenties vergelijken in corpora van
verschillende groottes
Frequentielijst = gesorteerde woordenlijst op basis van frequentie in het corpus
Voorbeelden:
2 corpora op basis van vrij beschikbare boeken (via Project Gutenberg:
https://www.gutenberg.org/) + sample van Vlaams boek:
1. Shakespeare – “Romeo en Julia” (vertaling)
, 2. Multatuli - ”Max Havelaar”
3. Sample van Lize Spit – “Het smelt”
Corpus Aantal woorden
Shakespeare – “Romeo en Julia” (vertaling) 31,817
Multatuli - ”Max Havelaar” 120,824
Sample van Lize Spit – “Het smelt” 1,005
, Frequentielijst “Het smelt”: zelfstandige naamwoorden
• Meest frequente woorden per woordsoort, gesorteerd op dalende frequentie
• Distributie berekenen per woordsoort:
o 206 zelfstandige naamwoorden / totaal 1005
woorden = 20%
Type-token ratio (TTR)
• Tokens = totale aantal woorden in een tekst
• Types = totaal aantal unieke woorden in een tekst
o Type-token ratio =
o #types / #tokens
Concordanties
Concordantie = woordgebruik in context
Distant reading → automatische analyse van tekst
• Grote volume tekst analyseren
• bijv. computationele literatuurwetenschappen (computational literary studies)
Populaire methodes tekstanalyse:
• Concordanties: woordgebruik in context
• Topic modeling: identificatie van belangrijke thema’s/topics
• Stylometrie: statistische analyse / bestuderen van schrijfstijl (lexicale en
syntactische informatie)
Stylometrie: toepassingen
- Bepalen van auteurschap (authorship attribution)
- Forensische taalkunde
Autorship attribution
→ Bepalen op basis van lexicale en syntactische kenmerken wie de auteur van een
tekst is
Bv: frequenties van functiewoorden, PoS-patronen, frequente opeenvolging van
woorden
Bekende voorbeelden:
• Authenticiteit van werken van Shakespeare (Frantzeskou et al., 2006)
, • JK Rawling / Robert Calbraith (pseudoniem)
Forensische taalkunde
➔ Alles wat met taal en wet/strafrecht te maken heeft
• Forensische fonetiek: identificeren van een spreker met spraak- en stemanalyse
• Bestuderen van juridische en strafrechtelijk interessante teksten, bijv.
dreigbrieven, chantagebrieven, plagiaat, bekentenissen, testamenten, … waarvan
de precieze auteur niet bekend is.
Doel: achterhalen van de auteur van anonieme teksten (analyse van handschrift,
schrijfstijl)
Bekend voorbeeld: Unabomber case
- 16 bommen (verschillende locaties in Amerika)
- Manifest van de dader (35,000 woorden) in krant
- Broer herkent schrijfstijl en belt de politie
Frequenties van woorden
Woordfrequentie analyseren om te onderzoeken hoe belangrijk woorden zijn in een
corpus
Frequentie = aantal keer dat woord voorkomt in corpus
➢ absolute frequentie /vs/
Relatieve frequentie = frequentie / aantal woorden in corpus
=> Belang van relatieve frequentie: frequenties vergelijken in corpora van
verschillende groottes
Frequentielijst = gesorteerde woordenlijst op basis van frequentie in het corpus
Voorbeelden:
2 corpora op basis van vrij beschikbare boeken (via Project Gutenberg:
https://www.gutenberg.org/) + sample van Vlaams boek:
1. Shakespeare – “Romeo en Julia” (vertaling)
, 2. Multatuli - ”Max Havelaar”
3. Sample van Lize Spit – “Het smelt”
Corpus Aantal woorden
Shakespeare – “Romeo en Julia” (vertaling) 31,817
Multatuli - ”Max Havelaar” 120,824
Sample van Lize Spit – “Het smelt” 1,005
, Frequentielijst “Het smelt”: zelfstandige naamwoorden
• Meest frequente woorden per woordsoort, gesorteerd op dalende frequentie
• Distributie berekenen per woordsoort:
o 206 zelfstandige naamwoorden / totaal 1005
woorden = 20%
Type-token ratio (TTR)
• Tokens = totale aantal woorden in een tekst
• Types = totaal aantal unieke woorden in een tekst
o Type-token ratio =
o #types / #tokens