100% de satisfacción garantizada Inmediatamente disponible después del pago Tanto en línea como en PDF No estas atado a nada 4.2 TrustPilot
logo-home
Resumen

Samenvatting taaltechnologie

Puntuación
5.0
(1)
Vendido
2
Páginas
37
Subido en
20-03-2014
Escrito en
2012/2013

Samenvatting van 37 pagina's voor het vak Taaltechnologie aan de UGent

Institución
Grado












Ups! No podemos cargar tu documento ahora. Inténtalo de nuevo o contacta con soporte.

Escuela, estudio y materia

Institución
Estudio
Grado

Información del documento

Subido en
20 de marzo de 2014
Número de páginas
37
Escrito en
2012/2013
Tipo
Resumen

Vista previa del contenido

2,5 dag -> ong 15p per dag



Examen: Inleiding tot de taaltechnologie

Hoofdstuk 1 : Taal en spraaktechnologie

Spraaktechnologie (onder) -> werkt met spraak
- Spraakherkenning -> van spraak naar tekst
(dicteersystemen bij dokters -> spreken in
machientje -> automatisch tekst)
- Spraaksynthese -> van tekst naar spraak
(navigatiesystemen)

Taaltechnologie (boven) -> werkt met tekst
- Taalbegrip opbouwen -> om opeenvolging
karakters te begrijpen
- Tekstgeneratie -> (automatisch samenvatten,
automatische vertaler)

Belang vertaaltechnologie:
- Stijgend volume door te korte levenscyclus van producten -> er moet meer vertaald worden.
(na 5j nieuwe auto, gsm’s -> nieuwe handleidingen)
- Toenemend aantal talen door de globalisering van de economie -> naar meer talen vertalen
- Eis terminologie op consistente manier te gebruiken ( niet verschillende woorden voor 1 ding)
- Drukken van vertaalkosten (vertaalgeheugen gebruiken)

Belang taaltechnologie:
- Inlichtingendiensten/militair : Intelligente text processing, automatisch vertalen (nog
probleem -> google translate) en samenvatten. Ontstaan in kader van intelligence (’40-’50) om
te weten te komen wat de Russen aan het uitspok en waren.
- Media : (ASR => MT => automatisch ondertitelen) VRT -> automatisch ondertitelen, gebruiken al
spraaktechnologie (iem die meepraat in thuis -> spraaksysteem, getraind op 1 persoon -> kwaliteit
ondertiteling behoorlijk goed)
- Medische + andere sectoren -> nood aan intelligent informatiebeheer (automatische
informatie-extractie uit patiëntenbestanden)
- Marketing/klantensupport -> (“sentimentdetectie” in blogs -> geeft over alle review sites de
positieve en negatieve kanten weer) Klantenreviewsites -> laten opinies achter -> belangrijk voor
bedrijven -> reputatie op web controleren.
- Sociaal -> detectie van cyberpedofielen, cyberpesters, zelfmoordberichten enz

Sociale media en bedrijven : waarom zijn die sociale media interessant voor bedrijven?
- Zoeksystemen -> reclame aanbieden op basis van kernwoorden (ik ga me onder trein gooien
-> reclame NMBS)
- Customised marketing -> waar klikken jullie op? Wat schrijven we op FB, twitter?
- Advertising -> google wordt er rijk van , FB ook.

Cyberpesten -> gemakkelijk, wegsteken achter anonimiteit
Moderne inquisitie -> pesters ook gepest


1

,2,5 dag -> ong 15p per dag



Suïcidale berichten -> systemen niet gemaakt om sms, blogtaal te lezen.
(sentimentanalyse -> verder kijken dan woorden -> semantiek zin)

Hoever staan we in het begrijpen van menselijke taal?
Watson, supercomputer IBM -> kon wedstrijd winnen -> probeerde menselijke vraag te begrijpen ->
berekeningen via parallelle computers -> gebruikt heel goede taaltechnologie, veel kennis integreren

Menselijke taal anno 2013
Regionale taal + ENG. Uitdagingen voor taaltechnologieën.

Wat is het grootste probleem binnen de taaltechnologie?
Ambiguïteit -> taaltechnologie kan pas echt accuraat zijn als ambiguïteit wordt weggewerkt op
verschillende niveaus.
Systemen die standaardtaal verwerken -> nog problemen met ambiguïteit (Google translate -> vreemde
fouten -> Ambiguïteit op verschillende niveaus)

Ambiguïteit op verschillende niveaus:
- Lexicaal – morfologisch :
o morfologisch : woorden als componentiele (?) samenstellingen gezien -> zo vertaald
 vandaag betalen ze enkel remgeld / today they only pay brake money
 bijvoorbeeld over de bestuurstaalregelgeving / for example concerning the
governing board language legislation
 een eengemaakte politiezone/ a-made police force area
o lexicaal : naamwoord als ww vertalen enz
 Gisteren zijn ze zonder akkoord rond 21u uit mekaar gegaan/ Yesterday they
have gone without agreed around 21 hours from each other
- Syntactisch :
o Flying planes can be dangerous (2 betekenissen)
o Ik eet pizza met olijven/ Ik eet pizza met mijn vriendin (allebei met, maar toch
andere betekenis)
- Semantisch :
o Zalm werd geboren als zoon van een kolenboer/ Salmon was born as son of a coal
farmer
o We leefden boven onze stand/ We lived above our score
- Pragmatisch : referenties
o The monkey ate the banana because it was hungry/ Der Affe aβ die Banane weil er
Hunger hatte.
o The monkey ate the banana because it was ripe/ Der Affe aβ die Banane weil sie reif
war
o The monkey ate the banana because it was lunch time/ Der Affe aβ die Banane weil
es Zeit zum Essen war.
- Wereldkennis:
o Blijkbaar hebben de Vlaamse onderhandelaars de faciliteitengemeenten
opgegeven./ Apparently the Flemisch negotiators have given up the facility
municipalities. (wat zijn faciliteitengemeenten? Weet google translate niet ->
municipalities with language facilities)


2

,2,5 dag -> ong 15p per dag



Hoe ambiguïteit oplossen?
1. Automatische woord- en zinsherkenning
o Automatische woordherkenning = Tokenisatie
o Wat is een “token”? -> reeks letters of cijfers
gescheiden door interpunctie, spaties of mark-up
(codes)
wat we vinden in een woordenboek, afstrippen
punctuatie
vb: Wat is een “token”? ->
<sentence>
wat
is
een

Token

?
</sentence>

Problemen bij tokenizatie:
- Afkortingen met punt
(o.m. bij regeringsinst. Regent het a.h.w. teksten die
vnl. bestaan uit losse letters of al of niet gescheiden
door puntjes)
- Punctuatie deel van woord (BV’s, Eu-begroting,
CD&V, Groen!, SP.A)

o Automatische zinsherkenning
o wat is een zin? -> reeks woorden
startend met woord met hoofdletter,
eindigend op punt, vraagteken,
uitroepteken.

Problemen bij wat is een zin :
- afkortingen of woorden met een punt in
- andere woorden kunnen ook met een hoofdletter straten (namen, Duits)

Conclusie automatische woord-en
zinsherkenning:
Woord- en zinsherkenning wordt goed maar
niet perfect opgelost, en moet voor specifieke
types van teksten en domeinen (bv
biomedische) opnieuw ontwikkeld worden.




3

,2,5 dag -> ong 15p per dag



2. Automatische lemmatizering/ morfologische analyse
Doel: Vind het lemma en de morfologische structuur van verborgen, vervoegde en complexe
woordvormen.
Waarom lemma nodig? Voor opzoeken in woordenboek. (werk -> 2 mog. Werk (zn) en
werken (ww))
Morfologische analyse: compounds opsplitsen en vertalen als het nodig is en niet doen als
niet nodig is.
Nut:
o Automatisch vertalen
o Automatische
woordafbreking
o Automatische
zoeksystemen

Voorbeeld lemmatizering :
Tafeltjes -> tafel
Springend -> springen
Zijderupsen -> zijderups
Zijn -> ?
Werk -> ?

Voorbeeld morfologische analyse:
Afvalverwerkingsinstallatiemakers
[afval][ver][werk][ing][s][installeer][atie][maak][er][s] plural noun
[afval] noun [[[[ver][werk] verb ] verb [ing]] noun [s][[installeer]
verb [atie]] noun ] noun [maak] verb [er] noun [s] plural noun
V.



3. Automatische woordontleding of part of speech tagging
Doel: elk woord voorzien van zijn contextueel geschikte morfosyntactische categorie.
Context bepaalt wat part of speech is -> green: adj en nw -> bepalen aan de hand van de context
Hoe? :
o Input : sequentie woorden en een tagset
o Output: correcte woordsoort (morfosyntactische categorie) van een woord in zijn
context
Voorbeeld POS tagging :
The green train runs down that track
Art Adj/N N/WW N/WW Prep/Bijw/Adj Pron N/WW
Art Adj N W Prep Pron N

2 manieren/methodologieën van POS tagging:
- Regelgebaseerd -> maken gebruik van een grote databank aan handgeschreven
desambigueringsregels. Deze regels specificeren bv dat een woord dat na een lidwoord komt
meer waarschijnlijk een nw zal zijn dan een ww.
o Regels spreken elkaar soms tegen
o Databank regels zijn rigide




4

, 2,5 dag -> ong 15p per dag


- Corpusgebaseerd -> gaan gebruik maken van trainingscorpus. Dat zijn woorden die manueel
voorzien zijn van een juiste part of speech. Ze gebruiken dat corpus om de probabiliteit van
een taak te bepalen in een gegeven context.
o Degelijk corpus
o Statistisch of stocastisch gewerkt

Tagging = taak toekennen -> woord = nw, ww

Stocastische POS tagging: een mogelijke aanpak voor POS tagging
Uitgangspunt: het tagging probleem kan worden opgelost door te kijken naar de woorden in de
lokale context
Vb: He is expected to race tomorrow -> race = nw of ww?
Hoe? Tagsequentie-probabiliteit * woordprobabiliteit.
Vb: He is expected to race tomorrow -> P(VB|TO)P(race|VB)
P(NN|TO)P(race|NN)

Stocastische POS tagging: uitleg in stapjes:
1. Tagsequentie-probabiliteit P(ti |ti−1)
o Hoe waarschijnlijk is het dat een POS een werkwoord/naamwoord zal zijn gegeven
de voorafgaande POS tag?
o Uitgangspunt: ww meer waarschijnlijk na to (vb to walk, to eat, to have vs go to school)
o Corpus nemen (verzameling teksten) -> manueel labelen met POS info (vb woorden
labelen, info als input genomen vr POS tagging -> to hoe vaak achter ww en nw?)
o Berekeningen op basis van het Brown corpus -> POS tagger zoekt hierin naar to ->
tellen (P(NN|to))
• P(NN|TO) = 0.021 -> 2%
• P(VB|TO) = .34 -> 34 %
o Na “to” krijgen we vaker een werkwoord dan een naamwoord.

2. Woordprobabiliteit
o Als we een werkwoord/naamwoord verwachten, hoe waarschijnlijk is het dan dat dat
werkwoord/naamwoord race zal zijn?
o Berekeningen op basis van het Brown Corpus :
• P(race|NN) = .00041 -> alle NN zoeken en kijken hoe vaak het race is -> laag want over meer
gesproken dan over race
• P(race|VB) = .00003 -> alle ww, hoe vaak race
o Race komt vaker voor als nw dan als ww. (OMGEKEERD)

3. Combinatie -> beide probabiliteiten vermenigvuldigen, voor ww en nw
P(VB|TO)P(race|VB) = .00001
P(NN|TO)P(race|NN) = .0000086
Race = ww -> hoger percentage

Voorbeeld:
Voorbeeld
De CIA heeft volgens de Britse krant Mail on Sunday op
militaire luchthavens in Groot-Brittanni¨e vrije toegang genoten
voor het vervoer van van terrorisme verdachte gevangenen .

De/Art(bep, zijdofmv, neut) CIA/N(eigen, ev, neut)
heeft/V(hulp, ott, 3, ev) volgens/Prep(voor) de/Art(bep, zijdofmv,
neut) Britse/Adj(attr, stell, vervneut) krant/N(soort,
ev, neut) Mail//N(eigen, ev, neut) on/Misc(vreemd) Sunday/

5
$4.23
Accede al documento completo:

100% de satisfacción garantizada
Inmediatamente disponible después del pago
Tanto en línea como en PDF
No estas atado a nada

Conoce al vendedor
Seller avatar
Klara123
5.0
(1)

Reseñas de compradores verificados

Se muestran los comentarios
11 año hace

5.0

1 reseñas

5
1
4
0
3
0
2
0
1
0
Reseñas confiables sobre Stuvia

Todas las reseñas las realizan usuarios reales de Stuvia después de compras verificadas.

Conoce al vendedor

Seller avatar
Klara123 Universiteit Gent
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
2
Miembro desde
11 año
Número de seguidores
2
Documentos
8
Última venta
11 año hace

5.0

1 reseñas

5
1
4
0
3
0
2
0
1
0

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes