Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien 4.2 TrustPilot
logo-home
Resume

Samenvatting taaltechnologie

Vendu
2
Pages
37
Publié le
20-03-2014
Écrit en
2012/2013

Samenvatting van 37 pagina's voor het vak Taaltechnologie aan de UGent













Oups ! Impossible de charger votre document. Réessayez ou contactez le support.

Infos sur le Document

Publié le
20 mars 2014
Nombre de pages
37
Écrit en
2012/2013
Type
Resume

Aperçu du contenu

2,5 dag -> ong 15p per dag



Examen: Inleiding tot de taaltechnologie

Hoofdstuk 1 : Taal en spraaktechnologie

Spraaktechnologie (onder) -> werkt met spraak
- Spraakherkenning -> van spraak naar tekst
(dicteersystemen bij dokters -> spreken in
machientje -> automatisch tekst)
- Spraaksynthese -> van tekst naar spraak
(navigatiesystemen)

Taaltechnologie (boven) -> werkt met tekst
- Taalbegrip opbouwen -> om opeenvolging
karakters te begrijpen
- Tekstgeneratie -> (automatisch samenvatten,
automatische vertaler)

Belang vertaaltechnologie:
- Stijgend volume door te korte levenscyclus van producten -> er moet meer vertaald worden.
(na 5j nieuwe auto, gsm’s -> nieuwe handleidingen)
- Toenemend aantal talen door de globalisering van de economie -> naar meer talen vertalen
- Eis terminologie op consistente manier te gebruiken ( niet verschillende woorden voor 1 ding)
- Drukken van vertaalkosten (vertaalgeheugen gebruiken)

Belang taaltechnologie:
- Inlichtingendiensten/militair : Intelligente text processing, automatisch vertalen (nog
probleem -> google translate) en samenvatten. Ontstaan in kader van intelligence (’40-’50) om
te weten te komen wat de Russen aan het uitspok en waren.
- Media : (ASR => MT => automatisch ondertitelen) VRT -> automatisch ondertitelen, gebruiken al
spraaktechnologie (iem die meepraat in thuis -> spraaksysteem, getraind op 1 persoon -> kwaliteit
ondertiteling behoorlijk goed)
- Medische + andere sectoren -> nood aan intelligent informatiebeheer (automatische
informatie-extractie uit patiëntenbestanden)
- Marketing/klantensupport -> (“sentimentdetectie” in blogs -> geeft over alle review sites de
positieve en negatieve kanten weer) Klantenreviewsites -> laten opinies achter -> belangrijk voor
bedrijven -> reputatie op web controleren.
- Sociaal -> detectie van cyberpedofielen, cyberpesters, zelfmoordberichten enz

Sociale media en bedrijven : waarom zijn die sociale media interessant voor bedrijven?
- Zoeksystemen -> reclame aanbieden op basis van kernwoorden (ik ga me onder trein gooien
-> reclame NMBS)
- Customised marketing -> waar klikken jullie op? Wat schrijven we op FB, twitter?
- Advertising -> google wordt er rijk van , FB ook.

Cyberpesten -> gemakkelijk, wegsteken achter anonimiteit
Moderne inquisitie -> pesters ook gepest


1

,2,5 dag -> ong 15p per dag



Suïcidale berichten -> systemen niet gemaakt om sms, blogtaal te lezen.
(sentimentanalyse -> verder kijken dan woorden -> semantiek zin)

Hoever staan we in het begrijpen van menselijke taal?
Watson, supercomputer IBM -> kon wedstrijd winnen -> probeerde menselijke vraag te begrijpen ->
berekeningen via parallelle computers -> gebruikt heel goede taaltechnologie, veel kennis integreren

Menselijke taal anno 2013
Regionale taal + ENG. Uitdagingen voor taaltechnologieën.

Wat is het grootste probleem binnen de taaltechnologie?
Ambiguïteit -> taaltechnologie kan pas echt accuraat zijn als ambiguïteit wordt weggewerkt op
verschillende niveaus.
Systemen die standaardtaal verwerken -> nog problemen met ambiguïteit (Google translate -> vreemde
fouten -> Ambiguïteit op verschillende niveaus)

Ambiguïteit op verschillende niveaus:
- Lexicaal – morfologisch :
o morfologisch : woorden als componentiele (?) samenstellingen gezien -> zo vertaald
 vandaag betalen ze enkel remgeld / today they only pay brake money
 bijvoorbeeld over de bestuurstaalregelgeving / for example concerning the
governing board language legislation
 een eengemaakte politiezone/ a-made police force area
o lexicaal : naamwoord als ww vertalen enz
 Gisteren zijn ze zonder akkoord rond 21u uit mekaar gegaan/ Yesterday they
have gone without agreed around 21 hours from each other
- Syntactisch :
o Flying planes can be dangerous (2 betekenissen)
o Ik eet pizza met olijven/ Ik eet pizza met mijn vriendin (allebei met, maar toch
andere betekenis)
- Semantisch :
o Zalm werd geboren als zoon van een kolenboer/ Salmon was born as son of a coal
farmer
o We leefden boven onze stand/ We lived above our score
- Pragmatisch : referenties
o The monkey ate the banana because it was hungry/ Der Affe aβ die Banane weil er
Hunger hatte.
o The monkey ate the banana because it was ripe/ Der Affe aβ die Banane weil sie reif
war
o The monkey ate the banana because it was lunch time/ Der Affe aβ die Banane weil
es Zeit zum Essen war.
- Wereldkennis:
o Blijkbaar hebben de Vlaamse onderhandelaars de faciliteitengemeenten
opgegeven./ Apparently the Flemisch negotiators have given up the facility
municipalities. (wat zijn faciliteitengemeenten? Weet google translate niet ->
municipalities with language facilities)


2

,2,5 dag -> ong 15p per dag



Hoe ambiguïteit oplossen?
1. Automatische woord- en zinsherkenning
o Automatische woordherkenning = Tokenisatie
o Wat is een “token”? -> reeks letters of cijfers
gescheiden door interpunctie, spaties of mark-up
(codes)
wat we vinden in een woordenboek, afstrippen
punctuatie
vb: Wat is een “token”? ->
<sentence>
wat
is
een

Token

?
</sentence>

Problemen bij tokenizatie:
- Afkortingen met punt
(o.m. bij regeringsinst. Regent het a.h.w. teksten die
vnl. bestaan uit losse letters of al of niet gescheiden
door puntjes)
- Punctuatie deel van woord (BV’s, Eu-begroting,
CD&V, Groen!, SP.A)

o Automatische zinsherkenning
o wat is een zin? -> reeks woorden
startend met woord met hoofdletter,
eindigend op punt, vraagteken,
uitroepteken.

Problemen bij wat is een zin :
- afkortingen of woorden met een punt in
- andere woorden kunnen ook met een hoofdletter straten (namen, Duits)

Conclusie automatische woord-en
zinsherkenning:
Woord- en zinsherkenning wordt goed maar
niet perfect opgelost, en moet voor specifieke
types van teksten en domeinen (bv
biomedische) opnieuw ontwikkeld worden.




3

,2,5 dag -> ong 15p per dag



2. Automatische lemmatizering/ morfologische analyse
Doel: Vind het lemma en de morfologische structuur van verborgen, vervoegde en complexe
woordvormen.
Waarom lemma nodig? Voor opzoeken in woordenboek. (werk -> 2 mog. Werk (zn) en
werken (ww))
Morfologische analyse: compounds opsplitsen en vertalen als het nodig is en niet doen als
niet nodig is.
Nut:
o Automatisch vertalen
o Automatische
woordafbreking
o Automatische
zoeksystemen

Voorbeeld lemmatizering :
Tafeltjes -> tafel
Springend -> springen
Zijderupsen -> zijderups
Zijn -> ?
Werk -> ?

Voorbeeld morfologische analyse:
Afvalverwerkingsinstallatiemakers
[afval][ver][werk][ing][s][installeer][atie][maak][er][s] plural noun
[afval] noun [[[[ver][werk] verb ] verb [ing]] noun [s][[installeer]
verb [atie]] noun ] noun [maak] verb [er] noun [s] plural noun
V.



3. Automatische woordontleding of part of speech tagging
Doel: elk woord voorzien van zijn contextueel geschikte morfosyntactische categorie.
Context bepaalt wat part of speech is -> green: adj en nw -> bepalen aan de hand van de context
Hoe? :
o Input : sequentie woorden en een tagset
o Output: correcte woordsoort (morfosyntactische categorie) van een woord in zijn
context
Voorbeeld POS tagging :
The green train runs down that track
Art Adj/N N/WW N/WW Prep/Bijw/Adj Pron N/WW
Art Adj N W Prep Pron N

2 manieren/methodologieën van POS tagging:
- Regelgebaseerd -> maken gebruik van een grote databank aan handgeschreven
desambigueringsregels. Deze regels specificeren bv dat een woord dat na een lidwoord komt
meer waarschijnlijk een nw zal zijn dan een ww.
o Regels spreken elkaar soms tegen
o Databank regels zijn rigide




4

, 2,5 dag -> ong 15p per dag


- Corpusgebaseerd -> gaan gebruik maken van trainingscorpus. Dat zijn woorden die manueel
voorzien zijn van een juiste part of speech. Ze gebruiken dat corpus om de probabiliteit van
een taak te bepalen in een gegeven context.
o Degelijk corpus
o Statistisch of stocastisch gewerkt

Tagging = taak toekennen -> woord = nw, ww

Stocastische POS tagging: een mogelijke aanpak voor POS tagging
Uitgangspunt: het tagging probleem kan worden opgelost door te kijken naar de woorden in de
lokale context
Vb: He is expected to race tomorrow -> race = nw of ww?
Hoe? Tagsequentie-probabiliteit * woordprobabiliteit.
Vb: He is expected to race tomorrow -> P(VB|TO)P(race|VB)
P(NN|TO)P(race|NN)

Stocastische POS tagging: uitleg in stapjes:
1. Tagsequentie-probabiliteit P(ti |ti−1)
o Hoe waarschijnlijk is het dat een POS een werkwoord/naamwoord zal zijn gegeven
de voorafgaande POS tag?
o Uitgangspunt: ww meer waarschijnlijk na to (vb to walk, to eat, to have vs go to school)
o Corpus nemen (verzameling teksten) -> manueel labelen met POS info (vb woorden
labelen, info als input genomen vr POS tagging -> to hoe vaak achter ww en nw?)
o Berekeningen op basis van het Brown corpus -> POS tagger zoekt hierin naar to ->
tellen (P(NN|to))
• P(NN|TO) = 0.021 -> 2%
• P(VB|TO) = .34 -> 34 %
o Na “to” krijgen we vaker een werkwoord dan een naamwoord.

2. Woordprobabiliteit
o Als we een werkwoord/naamwoord verwachten, hoe waarschijnlijk is het dan dat dat
werkwoord/naamwoord race zal zijn?
o Berekeningen op basis van het Brown Corpus :
• P(race|NN) = .00041 -> alle NN zoeken en kijken hoe vaak het race is -> laag want over meer
gesproken dan over race
• P(race|VB) = .00003 -> alle ww, hoe vaak race
o Race komt vaker voor als nw dan als ww. (OMGEKEERD)

3. Combinatie -> beide probabiliteiten vermenigvuldigen, voor ww en nw
P(VB|TO)P(race|VB) = .00001
P(NN|TO)P(race|NN) = .0000086
Race = ww -> hoger percentage

Voorbeeld:
Voorbeeld
De CIA heeft volgens de Britse krant Mail on Sunday op
militaire luchthavens in Groot-Brittanni¨e vrije toegang genoten
voor het vervoer van van terrorisme verdachte gevangenen .

De/Art(bep, zijdofmv, neut) CIA/N(eigen, ev, neut)
heeft/V(hulp, ott, 3, ev) volgens/Prep(voor) de/Art(bep, zijdofmv,
neut) Britse/Adj(attr, stell, vervneut) krant/N(soort,
ev, neut) Mail//N(eigen, ev, neut) on/Misc(vreemd) Sunday/

5
€3,49
Accéder à l'intégralité du document:

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Faites connaissance avec le vendeur
Seller avatar
Klara123
5,0
(1)

Reviews from verified buyers

Affichage de tous les avis
11 année de cela

5,0

1 revues

5
1
4
0
3
0
2
0
1
0
Avis fiables sur Stuvia

Tous les avis sont réalisés par de vrais utilisateurs de Stuvia après des achats vérifiés.

Faites connaissance avec le vendeur

Seller avatar
Klara123 Universiteit Gent
Voir profil
S'abonner Vous devez être connecté afin de suivre les étudiants ou les cours
Vendu
2
Membre depuis
11 année
Nombre de followers
2
Documents
8
Dernière vente
11 année de cela

5,0

1 revues

5
1
4
0
3
0
2
0
1
0

Récemment consulté par vous

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

Student with book image

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions