Resumen

Samenvatting taaltechnologie

Name: Samenvatting taaltechnologie
SKU: doc_74164
Rating: 5.00 (1 reviews)
Author: Klara123

Puntuación

5.0

(1)

Vendido

Páginas

Subido en

20-03-2014

Escrito en

2012/2013

Samenvatting van 37 pagina's voor het vak Taaltechnologie aan de UGent

Institución

Grado

Ups! No podemos cargar tu documento ahora. Inténtalo de nuevo o contacta con soporte.

Informar violación de derechos de autor

Escuela, estudio y materia

Institución: Universiteit Gent (UGent)
Estudio: Taal- en Letterkunde
Grado: Taaltechnologie

Todos documentos para esta materia (1)

Información del documento

Subido en: 20 de marzo de 2014
Número de páginas: 37
Escrito en: 2012/2013
Tipo: Resumen

Vista previa del contenido

2,5 dag -> ong 15p per dag

Examen: Inleiding tot de taaltechnologie

Hoofdstuk 1 : Taal en spraaktechnologie

Spraaktechnologie (onder) -> werkt met spraak
- Spraakherkenning -> van spraak naar tekst
(dicteersystemen bij dokters -> spreken in
machientje -> automatisch tekst)
- Spraaksynthese -> van tekst naar spraak
(navigatiesystemen)

Taaltechnologie (boven) -> werkt met tekst
- Taalbegrip opbouwen -> om opeenvolging
karakters te begrijpen
- Tekstgeneratie -> (automatisch samenvatten,
automatische vertaler)

Belang vertaaltechnologie:
- Stijgend volume door te korte levenscyclus van producten -> er moet meer vertaald worden.
(na 5j nieuwe auto, gsm’s -> nieuwe handleidingen)
- Toenemend aantal talen door de globalisering van de economie -> naar meer talen vertalen
- Eis terminologie op consistente manier te gebruiken ( niet verschillende woorden voor 1 ding)
- Drukken van vertaalkosten (vertaalgeheugen gebruiken)

Belang taaltechnologie:
- Inlichtingendiensten/militair : Intelligente text processing, automatisch vertalen (nog
probleem -> google translate) en samenvatten. Ontstaan in kader van intelligence (’40-’50) om
te weten te komen wat de Russen aan het uitspok en waren.
- Media : (ASR => MT => automatisch ondertitelen) VRT -> automatisch ondertitelen, gebruiken al
spraaktechnologie (iem die meepraat in thuis -> spraaksysteem, getraind op 1 persoon -> kwaliteit
ondertiteling behoorlijk goed)
- Medische + andere sectoren -> nood aan intelligent informatiebeheer (automatische
informatie-extractie uit patiëntenbestanden)
- Marketing/klantensupport -> (“sentimentdetectie” in blogs -> geeft over alle review sites de
positieve en negatieve kanten weer) Klantenreviewsites -> laten opinies achter -> belangrijk voor
bedrijven -> reputatie op web controleren.
- Sociaal -> detectie van cyberpedofielen, cyberpesters, zelfmoordberichten enz

Sociale media en bedrijven : waarom zijn die sociale media interessant voor bedrijven?
- Zoeksystemen -> reclame aanbieden op basis van kernwoorden (ik ga me onder trein gooien
-> reclame NMBS)
- Customised marketing -> waar klikken jullie op? Wat schrijven we op FB, twitter?
- Advertising -> google wordt er rijk van , FB ook.

Cyberpesten -> gemakkelijk, wegsteken achter anonimiteit
Moderne inquisitie -> pesters ook gepest

1

,2,5 dag -> ong 15p per dag

Suïcidale berichten -> systemen niet gemaakt om sms, blogtaal te lezen.
(sentimentanalyse -> verder kijken dan woorden -> semantiek zin)

Hoever staan we in het begrijpen van menselijke taal?
Watson, supercomputer IBM -> kon wedstrijd winnen -> probeerde menselijke vraag te begrijpen ->
berekeningen via parallelle computers -> gebruikt heel goede taaltechnologie, veel kennis integreren

Menselijke taal anno 2013
Regionale taal + ENG. Uitdagingen voor taaltechnologieën.

Wat is het grootste probleem binnen de taaltechnologie?
Ambiguïteit -> taaltechnologie kan pas echt accuraat zijn als ambiguïteit wordt weggewerkt op
verschillende niveaus.
Systemen die standaardtaal verwerken -> nog problemen met ambiguïteit (Google translate -> vreemde
fouten -> Ambiguïteit op verschillende niveaus)

Ambiguïteit op verschillende niveaus:
- Lexicaal – morfologisch :
o morfologisch : woorden als componentiele (?) samenstellingen gezien -> zo vertaald
 vandaag betalen ze enkel remgeld / today they only pay brake money
 bijvoorbeeld over de bestuurstaalregelgeving / for example concerning the
governing board language legislation
 een eengemaakte politiezone/ a-made police force area
o lexicaal : naamwoord als ww vertalen enz
 Gisteren zijn ze zonder akkoord rond 21u uit mekaar gegaan/ Yesterday they
have gone without agreed around 21 hours from each other
- Syntactisch :
o Flying planes can be dangerous (2 betekenissen)
o Ik eet pizza met olijven/ Ik eet pizza met mijn vriendin (allebei met, maar toch
andere betekenis)
- Semantisch :
o Zalm werd geboren als zoon van een kolenboer/ Salmon was born as son of a coal
farmer
o We leefden boven onze stand/ We lived above our score
- Pragmatisch : referenties
o The monkey ate the banana because it was hungry/ Der Affe aβ die Banane weil er
Hunger hatte.
o The monkey ate the banana because it was ripe/ Der Affe aβ die Banane weil sie reif
war
o The monkey ate the banana because it was lunch time/ Der Affe aβ die Banane weil
es Zeit zum Essen war.
- Wereldkennis:
o Blijkbaar hebben de Vlaamse onderhandelaars de faciliteitengemeenten
opgegeven./ Apparently the Flemisch negotiators have given up the facility
municipalities. (wat zijn faciliteitengemeenten? Weet google translate niet ->
municipalities with language facilities)

2

,2,5 dag -> ong 15p per dag

Hoe ambiguïteit oplossen?
1. Automatische woord- en zinsherkenning
o Automatische woordherkenning = Tokenisatie
o Wat is een “token”? -> reeks letters of cijfers
gescheiden door interpunctie, spaties of mark-up
(codes)
wat we vinden in een woordenboek, afstrippen
punctuatie
vb: Wat is een “token”? ->
<sentence>
wat
is
een
“
Token
“
?
</sentence>

Problemen bij tokenizatie:
- Afkortingen met punt
(o.m. bij regeringsinst. Regent het a.h.w. teksten die
vnl. bestaan uit losse letters of al of niet gescheiden
door puntjes)
- Punctuatie deel van woord (BV’s, Eu-begroting,
CD&V, Groen!, SP.A)

o Automatische zinsherkenning
o wat is een zin? -> reeks woorden
startend met woord met hoofdletter,
eindigend op punt, vraagteken,
uitroepteken.

Problemen bij wat is een zin :
- afkortingen of woorden met een punt in
- andere woorden kunnen ook met een hoofdletter straten (namen, Duits)

Conclusie automatische woord-en
zinsherkenning:
Woord- en zinsherkenning wordt goed maar
niet perfect opgelost, en moet voor specifieke
types van teksten en domeinen (bv
biomedische) opnieuw ontwikkeld worden.

3

,2,5 dag -> ong 15p per dag

2. Automatische lemmatizering/ morfologische analyse
Doel: Vind het lemma en de morfologische structuur van verborgen, vervoegde en complexe
woordvormen.
Waarom lemma nodig? Voor opzoeken in woordenboek. (werk -> 2 mog. Werk (zn) en
werken (ww))
Morfologische analyse: compounds opsplitsen en vertalen als het nodig is en niet doen als
niet nodig is.
Nut:
o Automatisch vertalen
o Automatische
woordafbreking
o Automatische
zoeksystemen

Voorbeeld lemmatizering :
Tafeltjes -> tafel
Springend -> springen
Zijderupsen -> zijderups
Zijn -> ?
Werk -> ?

Voorbeeld morfologische analyse:
Afvalverwerkingsinstallatiemakers
[afval][ver][werk][ing][s][installeer][atie][maak][er][s] plural noun
[afval] noun [[[[ver][werk] verb ] verb [ing]] noun [s][[installeer]
verb [atie]] noun ] noun [maak] verb [er] noun [s] plural noun
V.

3. Automatische woordontleding of part of speech tagging
Doel: elk woord voorzien van zijn contextueel geschikte morfosyntactische categorie.
Context bepaalt wat part of speech is -> green: adj en nw -> bepalen aan de hand van de context
Hoe? :
o Input : sequentie woorden en een tagset
o Output: correcte woordsoort (morfosyntactische categorie) van een woord in zijn
context
Voorbeeld POS tagging :
The green train runs down that track
Art Adj/N N/WW N/WW Prep/Bijw/Adj Pron N/WW
Art Adj N W Prep Pron N

2 manieren/methodologieën van POS tagging:
- Regelgebaseerd -> maken gebruik van een grote databank aan handgeschreven
desambigueringsregels. Deze regels specificeren bv dat een woord dat na een lidwoord komt
meer waarschijnlijk een nw zal zijn dan een ww.
o Regels spreken elkaar soms tegen
o Databank regels zijn rigide

4

, 2,5 dag -> ong 15p per dag

- Corpusgebaseerd -> gaan gebruik maken van trainingscorpus. Dat zijn woorden die manueel
voorzien zijn van een juiste part of speech. Ze gebruiken dat corpus om de probabiliteit van
een taak te bepalen in een gegeven context.
o Degelijk corpus
o Statistisch of stocastisch gewerkt

Tagging = taak toekennen -> woord = nw, ww

Stocastische POS tagging: een mogelijke aanpak voor POS tagging
Uitgangspunt: het tagging probleem kan worden opgelost door te kijken naar de woorden in de
lokale context
Vb: He is expected to race tomorrow -> race = nw of ww?
Hoe? Tagsequentie-probabiliteit * woordprobabiliteit.
Vb: He is expected to race tomorrow -> P(VB|TO)P(race|VB)
P(NN|TO)P(race|NN)

Stocastische POS tagging: uitleg in stapjes:
1. Tagsequentie-probabiliteit P(ti |ti−1)
o Hoe waarschijnlijk is het dat een POS een werkwoord/naamwoord zal zijn gegeven
de voorafgaande POS tag?
o Uitgangspunt: ww meer waarschijnlijk na to (vb to walk, to eat, to have vs go to school)
o Corpus nemen (verzameling teksten) -> manueel labelen met POS info (vb woorden
labelen, info als input genomen vr POS tagging -> to hoe vaak achter ww en nw?)
o Berekeningen op basis van het Brown corpus -> POS tagger zoekt hierin naar to ->
tellen (P(NN|to))
• P(NN|TO) = 0.021 -> 2%
• P(VB|TO) = .34 -> 34 %
o Na “to” krijgen we vaker een werkwoord dan een naamwoord.

2. Woordprobabiliteit
o Als we een werkwoord/naamwoord verwachten, hoe waarschijnlijk is het dan dat dat
werkwoord/naamwoord race zal zijn?
o Berekeningen op basis van het Brown Corpus :
• P(race|NN) = .00041 -> alle NN zoeken en kijken hoe vaak het race is -> laag want over meer
gesproken dan over race
• P(race|VB) = .00003 -> alle ww, hoe vaak race
o Race komt vaker voor als nw dan als ww. (OMGEKEERD)

3. Combinatie -> beide probabiliteiten vermenigvuldigen, voor ww en nw
P(VB|TO)P(race|VB) = .00001
P(NN|TO)P(race|NN) = .0000086
Race = ww -> hoger percentage

Voorbeeld:
Voorbeeld
De CIA heeft volgens de Britse krant Mail on Sunday op
militaire luchthavens in Groot-Brittanni¨e vrije toegang genoten
voor het vervoer van van terrorisme verdachte gevangenen .

De/Art(bep, zijdofmv, neut) CIA/N(eigen, ev, neut)
heeft/V(hulp, ott, 3, ev) volgens/Prep(voor) de/Art(bep, zijdofmv,
neut) Britse/Adj(attr, stell, vervneut) krant/N(soort,
ev, neut) Mail//N(eigen, ev, neut) on/Misc(vreemd) Sunday/

5

$4.23

Accede al documento completo:

100% de satisfacción garantizada

Inmediatamente disponible después del pago

Tanto en línea como en PDF

No estas atado a nada

Conoce al vendedor

Klara123

5.0

(1)

Reseñas de compradores verificados

Se muestran los comentarios

marypoppins1986 Taal- en Letterkunde · 1 revisar

11 año hace

5.0

1 reseñas

Reseñas confiables sobre Stuvia

Todas las reseñas las realizan usuarios reales de Stuvia después de compras verificadas.

Conoce al vendedor

Klara123 Universiteit Gent

Ver perfil

Seguir

Vendido

Miembro desde

11 año

Número de seguidores

Documentos

Última venta

11 año hace

5.0

1 reseñas

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

100% de satisfacción garantizada: ¿Cómo funciona?

Nuestra garantía de satisfacción le asegura que siempre encontrará un documento de estudio a tu medida. Tu rellenas un formulario y nuestro equipo de atención al cliente se encarga del resto.

Who am I buying this summary from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller Klara123. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy this summary for $4.23. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews) 45,681 summaries were sold in the last 30 days Founded in 2010, the go-to place to buy summaries for 15 years now