100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Samenvatting taaltechnologie

Rating
5.0
(1)
Sold
2
Pages
37
Uploaded on
20-03-2014
Written in
2012/2013

Samenvatting van 37 pagina's voor het vak Taaltechnologie aan de UGent

Institution
Course












Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Course

Document information

Uploaded on
March 20, 2014
Number of pages
37
Written in
2012/2013
Type
Summary

Content preview

2,5 dag -> ong 15p per dag



Examen: Inleiding tot de taaltechnologie

Hoofdstuk 1 : Taal en spraaktechnologie

Spraaktechnologie (onder) -> werkt met spraak
- Spraakherkenning -> van spraak naar tekst
(dicteersystemen bij dokters -> spreken in
machientje -> automatisch tekst)
- Spraaksynthese -> van tekst naar spraak
(navigatiesystemen)

Taaltechnologie (boven) -> werkt met tekst
- Taalbegrip opbouwen -> om opeenvolging
karakters te begrijpen
- Tekstgeneratie -> (automatisch samenvatten,
automatische vertaler)

Belang vertaaltechnologie:
- Stijgend volume door te korte levenscyclus van producten -> er moet meer vertaald worden.
(na 5j nieuwe auto, gsm’s -> nieuwe handleidingen)
- Toenemend aantal talen door de globalisering van de economie -> naar meer talen vertalen
- Eis terminologie op consistente manier te gebruiken ( niet verschillende woorden voor 1 ding)
- Drukken van vertaalkosten (vertaalgeheugen gebruiken)

Belang taaltechnologie:
- Inlichtingendiensten/militair : Intelligente text processing, automatisch vertalen (nog
probleem -> google translate) en samenvatten. Ontstaan in kader van intelligence (’40-’50) om
te weten te komen wat de Russen aan het uitspok en waren.
- Media : (ASR => MT => automatisch ondertitelen) VRT -> automatisch ondertitelen, gebruiken al
spraaktechnologie (iem die meepraat in thuis -> spraaksysteem, getraind op 1 persoon -> kwaliteit
ondertiteling behoorlijk goed)
- Medische + andere sectoren -> nood aan intelligent informatiebeheer (automatische
informatie-extractie uit patiëntenbestanden)
- Marketing/klantensupport -> (“sentimentdetectie” in blogs -> geeft over alle review sites de
positieve en negatieve kanten weer) Klantenreviewsites -> laten opinies achter -> belangrijk voor
bedrijven -> reputatie op web controleren.
- Sociaal -> detectie van cyberpedofielen, cyberpesters, zelfmoordberichten enz

Sociale media en bedrijven : waarom zijn die sociale media interessant voor bedrijven?
- Zoeksystemen -> reclame aanbieden op basis van kernwoorden (ik ga me onder trein gooien
-> reclame NMBS)
- Customised marketing -> waar klikken jullie op? Wat schrijven we op FB, twitter?
- Advertising -> google wordt er rijk van , FB ook.

Cyberpesten -> gemakkelijk, wegsteken achter anonimiteit
Moderne inquisitie -> pesters ook gepest


1

,2,5 dag -> ong 15p per dag



Suïcidale berichten -> systemen niet gemaakt om sms, blogtaal te lezen.
(sentimentanalyse -> verder kijken dan woorden -> semantiek zin)

Hoever staan we in het begrijpen van menselijke taal?
Watson, supercomputer IBM -> kon wedstrijd winnen -> probeerde menselijke vraag te begrijpen ->
berekeningen via parallelle computers -> gebruikt heel goede taaltechnologie, veel kennis integreren

Menselijke taal anno 2013
Regionale taal + ENG. Uitdagingen voor taaltechnologieën.

Wat is het grootste probleem binnen de taaltechnologie?
Ambiguïteit -> taaltechnologie kan pas echt accuraat zijn als ambiguïteit wordt weggewerkt op
verschillende niveaus.
Systemen die standaardtaal verwerken -> nog problemen met ambiguïteit (Google translate -> vreemde
fouten -> Ambiguïteit op verschillende niveaus)

Ambiguïteit op verschillende niveaus:
- Lexicaal – morfologisch :
o morfologisch : woorden als componentiele (?) samenstellingen gezien -> zo vertaald
 vandaag betalen ze enkel remgeld / today they only pay brake money
 bijvoorbeeld over de bestuurstaalregelgeving / for example concerning the
governing board language legislation
 een eengemaakte politiezone/ a-made police force area
o lexicaal : naamwoord als ww vertalen enz
 Gisteren zijn ze zonder akkoord rond 21u uit mekaar gegaan/ Yesterday they
have gone without agreed around 21 hours from each other
- Syntactisch :
o Flying planes can be dangerous (2 betekenissen)
o Ik eet pizza met olijven/ Ik eet pizza met mijn vriendin (allebei met, maar toch
andere betekenis)
- Semantisch :
o Zalm werd geboren als zoon van een kolenboer/ Salmon was born as son of a coal
farmer
o We leefden boven onze stand/ We lived above our score
- Pragmatisch : referenties
o The monkey ate the banana because it was hungry/ Der Affe aβ die Banane weil er
Hunger hatte.
o The monkey ate the banana because it was ripe/ Der Affe aβ die Banane weil sie reif
war
o The monkey ate the banana because it was lunch time/ Der Affe aβ die Banane weil
es Zeit zum Essen war.
- Wereldkennis:
o Blijkbaar hebben de Vlaamse onderhandelaars de faciliteitengemeenten
opgegeven./ Apparently the Flemisch negotiators have given up the facility
municipalities. (wat zijn faciliteitengemeenten? Weet google translate niet ->
municipalities with language facilities)


2

,2,5 dag -> ong 15p per dag



Hoe ambiguïteit oplossen?
1. Automatische woord- en zinsherkenning
o Automatische woordherkenning = Tokenisatie
o Wat is een “token”? -> reeks letters of cijfers
gescheiden door interpunctie, spaties of mark-up
(codes)
wat we vinden in een woordenboek, afstrippen
punctuatie
vb: Wat is een “token”? ->
<sentence>
wat
is
een

Token

?
</sentence>

Problemen bij tokenizatie:
- Afkortingen met punt
(o.m. bij regeringsinst. Regent het a.h.w. teksten die
vnl. bestaan uit losse letters of al of niet gescheiden
door puntjes)
- Punctuatie deel van woord (BV’s, Eu-begroting,
CD&V, Groen!, SP.A)

o Automatische zinsherkenning
o wat is een zin? -> reeks woorden
startend met woord met hoofdletter,
eindigend op punt, vraagteken,
uitroepteken.

Problemen bij wat is een zin :
- afkortingen of woorden met een punt in
- andere woorden kunnen ook met een hoofdletter straten (namen, Duits)

Conclusie automatische woord-en
zinsherkenning:
Woord- en zinsherkenning wordt goed maar
niet perfect opgelost, en moet voor specifieke
types van teksten en domeinen (bv
biomedische) opnieuw ontwikkeld worden.




3

,2,5 dag -> ong 15p per dag



2. Automatische lemmatizering/ morfologische analyse
Doel: Vind het lemma en de morfologische structuur van verborgen, vervoegde en complexe
woordvormen.
Waarom lemma nodig? Voor opzoeken in woordenboek. (werk -> 2 mog. Werk (zn) en
werken (ww))
Morfologische analyse: compounds opsplitsen en vertalen als het nodig is en niet doen als
niet nodig is.
Nut:
o Automatisch vertalen
o Automatische
woordafbreking
o Automatische
zoeksystemen

Voorbeeld lemmatizering :
Tafeltjes -> tafel
Springend -> springen
Zijderupsen -> zijderups
Zijn -> ?
Werk -> ?

Voorbeeld morfologische analyse:
Afvalverwerkingsinstallatiemakers
[afval][ver][werk][ing][s][installeer][atie][maak][er][s] plural noun
[afval] noun [[[[ver][werk] verb ] verb [ing]] noun [s][[installeer]
verb [atie]] noun ] noun [maak] verb [er] noun [s] plural noun
V.



3. Automatische woordontleding of part of speech tagging
Doel: elk woord voorzien van zijn contextueel geschikte morfosyntactische categorie.
Context bepaalt wat part of speech is -> green: adj en nw -> bepalen aan de hand van de context
Hoe? :
o Input : sequentie woorden en een tagset
o Output: correcte woordsoort (morfosyntactische categorie) van een woord in zijn
context
Voorbeeld POS tagging :
The green train runs down that track
Art Adj/N N/WW N/WW Prep/Bijw/Adj Pron N/WW
Art Adj N W Prep Pron N

2 manieren/methodologieën van POS tagging:
- Regelgebaseerd -> maken gebruik van een grote databank aan handgeschreven
desambigueringsregels. Deze regels specificeren bv dat een woord dat na een lidwoord komt
meer waarschijnlijk een nw zal zijn dan een ww.
o Regels spreken elkaar soms tegen
o Databank regels zijn rigide




4

, 2,5 dag -> ong 15p per dag


- Corpusgebaseerd -> gaan gebruik maken van trainingscorpus. Dat zijn woorden die manueel
voorzien zijn van een juiste part of speech. Ze gebruiken dat corpus om de probabiliteit van
een taak te bepalen in een gegeven context.
o Degelijk corpus
o Statistisch of stocastisch gewerkt

Tagging = taak toekennen -> woord = nw, ww

Stocastische POS tagging: een mogelijke aanpak voor POS tagging
Uitgangspunt: het tagging probleem kan worden opgelost door te kijken naar de woorden in de
lokale context
Vb: He is expected to race tomorrow -> race = nw of ww?
Hoe? Tagsequentie-probabiliteit * woordprobabiliteit.
Vb: He is expected to race tomorrow -> P(VB|TO)P(race|VB)
P(NN|TO)P(race|NN)

Stocastische POS tagging: uitleg in stapjes:
1. Tagsequentie-probabiliteit P(ti |ti−1)
o Hoe waarschijnlijk is het dat een POS een werkwoord/naamwoord zal zijn gegeven
de voorafgaande POS tag?
o Uitgangspunt: ww meer waarschijnlijk na to (vb to walk, to eat, to have vs go to school)
o Corpus nemen (verzameling teksten) -> manueel labelen met POS info (vb woorden
labelen, info als input genomen vr POS tagging -> to hoe vaak achter ww en nw?)
o Berekeningen op basis van het Brown corpus -> POS tagger zoekt hierin naar to ->
tellen (P(NN|to))
• P(NN|TO) = 0.021 -> 2%
• P(VB|TO) = .34 -> 34 %
o Na “to” krijgen we vaker een werkwoord dan een naamwoord.

2. Woordprobabiliteit
o Als we een werkwoord/naamwoord verwachten, hoe waarschijnlijk is het dan dat dat
werkwoord/naamwoord race zal zijn?
o Berekeningen op basis van het Brown Corpus :
• P(race|NN) = .00041 -> alle NN zoeken en kijken hoe vaak het race is -> laag want over meer
gesproken dan over race
• P(race|VB) = .00003 -> alle ww, hoe vaak race
o Race komt vaker voor als nw dan als ww. (OMGEKEERD)

3. Combinatie -> beide probabiliteiten vermenigvuldigen, voor ww en nw
P(VB|TO)P(race|VB) = .00001
P(NN|TO)P(race|NN) = .0000086
Race = ww -> hoger percentage

Voorbeeld:
Voorbeeld
De CIA heeft volgens de Britse krant Mail on Sunday op
militaire luchthavens in Groot-Brittanni¨e vrije toegang genoten
voor het vervoer van van terrorisme verdachte gevangenen .

De/Art(bep, zijdofmv, neut) CIA/N(eigen, ev, neut)
heeft/V(hulp, ott, 3, ev) volgens/Prep(voor) de/Art(bep, zijdofmv,
neut) Britse/Adj(attr, stell, vervneut) krant/N(soort,
ev, neut) Mail//N(eigen, ev, neut) on/Misc(vreemd) Sunday/

5
$4.23
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Get to know the seller
Seller avatar
Klara123
5.0
(1)

Reviews from verified buyers

Showing all reviews
11 year ago

5.0

1 reviews

5
1
4
0
3
0
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Klara123 Universiteit Gent
Follow You need to be logged in order to follow users or courses
Sold
2
Member since
11 year
Number of followers
2
Documents
8
Last sold
11 year ago

5.0

1 reviews

5
1
4
0
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions