TAALTECH 5
5. TOEPASSINGEN VAN TAALTECHNOLOGIE
A. INLEIDING
alle taaltechnologietoepassingen kunnen gebeuren met LLM’s of diepe neurale netwerken waarop ze based zijn
= gaat van taalkundig kennis gebaseerd – statische systemen – voorgetrainde taalmodellen
in dit hoofdstuk ligt de focus op de aard van problemen en actuele oplossing en NIET MEER op de aanpak
De toepassingen in dit HS:
Search (zoekmachines)
Automatisch vertalen
Tekst Mining (vraag-antwoord systemen, informatie-extractie, automatisch samenvatten)
Stylometrie
B. ZOEKMACHINES
Zoekmachines zijn met automatische vertaling één vd oudste toepassingen vd taaltechnologie
De technologie werd pas echt belangrijk met het ontstaan vh WWW
Snel zoeken in grote hoeveelheden webpagina’s zou commercieel belangrijk w vanaf toen
Google = de belangrijkste zoekmachine
Schaalbaar: kan met extreem grote hoeveelheden documenten en zoekvragen (queries)
WRM zo’n dominante positie?
(1) de eenvoud vd startpagina
(2) het PageRank algoritme: de beste antwoorden zitten bovenaan gerankt
Evaluatie van een zoekmachine?
Relevantie t.o.v. de zoekvraag: precies en bereik (zie hieronder)
Geoptimaliseerd op precisie, bereik kennen de makers van zoekmachines niet
RELEVANTIE: PAGERANK ALGORITME
= een systeem dat kijkt naar de structuur van verbindingen (links) tussen webpagina’s om te bepalen welke pagina’s
het meest betrouwbaar en relevant zijn
Authorities = pagina’s waarnaar verschillende andere pagina’s verwijzen
Hubs = pagina’s die zelf naar andere pagina’s verwijzen
Die webpagina’s zijn relevant en krijgen een hoge PageRank
Het is wel belangrijk welke pagina’s naar hen verwijzen of naar welke pagina’s ze zelf verwijzen
Die moeten zelf namelijk ook een hoge PageRank hebben
DUS het bepaalt de relevantie v webpagina’s o.b.v. het aantal en de kwaliteit van de links naar de pagina
Recursief proces: om de PR van pagina a te kennen moet je die ook van andere documenten kennen
Daar zijn wiskundige schattingsmethodes voor
Deze oplossing = essentieel door het correct ordenen van resultaten naar relevantie
MAAR wat is een goede evaluatie vd ordening van resultaten?
Precisie: deel aantal relevante documenten door het totale aantal gevonden documenten
Documenten moeten relevant zijn voor het oplossen vd zoekvraag
Bereik: deel aantal relevante documenten door het totale aantal in hele documentverzameling
Je wil zeker zijn dat je geen relevante documenten gemist hebt
, ONDERDELEN ZOEKMACHINES
1. Googlebot: web spider of crawler
Doorzoekt het WWW en bewaart de tekst van elke pagina die hij tegenkomt
Volgt de links naar andere pagina’s
CONCLUSIE? Google komt vaak langs bij belangrijkste websites
2. Een indexering
Elke pagina w geïndexeerd relevante woorden w uit de tekst gehaald en in een index geplaatst
GEEN lidwoorden en dergelijke
Een index: geeft voor elk woord aan op welke plaats in welke documenten dat woord voorkomt
3. Zoekvraagverwerking (query processing)
Na de zoekvraag worden de woorden ervan opgezocht in de index
ZO worden er pagina’s gezocht waarin de woorden vd zoekvraag voorkomen
Deze documenten worden geordend volgens hun PageRank
TAALTECHNOLOGIE IN GOOGLE
Google maakt gebruik van taaltechnologie
Bruikbare meertalige spellingcorrectie
Gaat spelfouten bijna correct corrigeren “bedoel je …”
Lemmatisering = soort van morfologische analyse die ook gebeurt door search engines
Vb: als je “dietary” ingeeft zal ook gedacht worden aan “diet, diets, …”
Synoniemen = denken aan andere woorden
“adSense”: context-afhankelijke reclame
Vb: Java kan een koffiemerk, programmeertaal of eiland zijn
Hoe beslissen ze dan welke reclame ze op een bepaalde website zetten?
Website analyseren en proberen achterhalen in welke context van Java men zit
Automatische vertaling, spraakherkenning en -synthese
Google Knowledge Graph
= conceptherkenning, feiten en events
CONCLUSIE? LLM’s (Gemini) hebben deze taken waarschijnlijk al overgenomen
. AUTOMATISCH VERTALEN
Taaltechnologie is eigenlijk ontstaan om een oplossing te bieden voor automatische vertaling
DOEL? Ontwikkeling v systemen die automatisch tekst in de ene taal naar andere taal omzetten
Vertaling van zakelijke teksten door de computer
Inclusief spraakvertaling (vertaaltelefoon)
Niemand dacht eraan dat literair vertalen ooit mogelijk zou zijn
MAAR je kan ze toch een poging laten doen
Langs de andere kant niet zo belangrijk want is maar een klein percentage vh vertaalvolume
“vertaling is niets meer dan een geheime code”
Een tekst in het Spaans is een codering in geheimschrift van een tekst in het Nederlands
Door statistische technieken kan dat schrift ontcijferd worden
Workflow vertalers?
Bureaus werken met vertaalgeheugens die alle voordien vertaalde zinnen onthoudt
+ fuzzy matching:
Automatische vertaling (GT, DeepL) + nabewerking = eventueel met eigen woordenboeken
5. TOEPASSINGEN VAN TAALTECHNOLOGIE
A. INLEIDING
alle taaltechnologietoepassingen kunnen gebeuren met LLM’s of diepe neurale netwerken waarop ze based zijn
= gaat van taalkundig kennis gebaseerd – statische systemen – voorgetrainde taalmodellen
in dit hoofdstuk ligt de focus op de aard van problemen en actuele oplossing en NIET MEER op de aanpak
De toepassingen in dit HS:
Search (zoekmachines)
Automatisch vertalen
Tekst Mining (vraag-antwoord systemen, informatie-extractie, automatisch samenvatten)
Stylometrie
B. ZOEKMACHINES
Zoekmachines zijn met automatische vertaling één vd oudste toepassingen vd taaltechnologie
De technologie werd pas echt belangrijk met het ontstaan vh WWW
Snel zoeken in grote hoeveelheden webpagina’s zou commercieel belangrijk w vanaf toen
Google = de belangrijkste zoekmachine
Schaalbaar: kan met extreem grote hoeveelheden documenten en zoekvragen (queries)
WRM zo’n dominante positie?
(1) de eenvoud vd startpagina
(2) het PageRank algoritme: de beste antwoorden zitten bovenaan gerankt
Evaluatie van een zoekmachine?
Relevantie t.o.v. de zoekvraag: precies en bereik (zie hieronder)
Geoptimaliseerd op precisie, bereik kennen de makers van zoekmachines niet
RELEVANTIE: PAGERANK ALGORITME
= een systeem dat kijkt naar de structuur van verbindingen (links) tussen webpagina’s om te bepalen welke pagina’s
het meest betrouwbaar en relevant zijn
Authorities = pagina’s waarnaar verschillende andere pagina’s verwijzen
Hubs = pagina’s die zelf naar andere pagina’s verwijzen
Die webpagina’s zijn relevant en krijgen een hoge PageRank
Het is wel belangrijk welke pagina’s naar hen verwijzen of naar welke pagina’s ze zelf verwijzen
Die moeten zelf namelijk ook een hoge PageRank hebben
DUS het bepaalt de relevantie v webpagina’s o.b.v. het aantal en de kwaliteit van de links naar de pagina
Recursief proces: om de PR van pagina a te kennen moet je die ook van andere documenten kennen
Daar zijn wiskundige schattingsmethodes voor
Deze oplossing = essentieel door het correct ordenen van resultaten naar relevantie
MAAR wat is een goede evaluatie vd ordening van resultaten?
Precisie: deel aantal relevante documenten door het totale aantal gevonden documenten
Documenten moeten relevant zijn voor het oplossen vd zoekvraag
Bereik: deel aantal relevante documenten door het totale aantal in hele documentverzameling
Je wil zeker zijn dat je geen relevante documenten gemist hebt
, ONDERDELEN ZOEKMACHINES
1. Googlebot: web spider of crawler
Doorzoekt het WWW en bewaart de tekst van elke pagina die hij tegenkomt
Volgt de links naar andere pagina’s
CONCLUSIE? Google komt vaak langs bij belangrijkste websites
2. Een indexering
Elke pagina w geïndexeerd relevante woorden w uit de tekst gehaald en in een index geplaatst
GEEN lidwoorden en dergelijke
Een index: geeft voor elk woord aan op welke plaats in welke documenten dat woord voorkomt
3. Zoekvraagverwerking (query processing)
Na de zoekvraag worden de woorden ervan opgezocht in de index
ZO worden er pagina’s gezocht waarin de woorden vd zoekvraag voorkomen
Deze documenten worden geordend volgens hun PageRank
TAALTECHNOLOGIE IN GOOGLE
Google maakt gebruik van taaltechnologie
Bruikbare meertalige spellingcorrectie
Gaat spelfouten bijna correct corrigeren “bedoel je …”
Lemmatisering = soort van morfologische analyse die ook gebeurt door search engines
Vb: als je “dietary” ingeeft zal ook gedacht worden aan “diet, diets, …”
Synoniemen = denken aan andere woorden
“adSense”: context-afhankelijke reclame
Vb: Java kan een koffiemerk, programmeertaal of eiland zijn
Hoe beslissen ze dan welke reclame ze op een bepaalde website zetten?
Website analyseren en proberen achterhalen in welke context van Java men zit
Automatische vertaling, spraakherkenning en -synthese
Google Knowledge Graph
= conceptherkenning, feiten en events
CONCLUSIE? LLM’s (Gemini) hebben deze taken waarschijnlijk al overgenomen
. AUTOMATISCH VERTALEN
Taaltechnologie is eigenlijk ontstaan om een oplossing te bieden voor automatische vertaling
DOEL? Ontwikkeling v systemen die automatisch tekst in de ene taal naar andere taal omzetten
Vertaling van zakelijke teksten door de computer
Inclusief spraakvertaling (vertaaltelefoon)
Niemand dacht eraan dat literair vertalen ooit mogelijk zou zijn
MAAR je kan ze toch een poging laten doen
Langs de andere kant niet zo belangrijk want is maar een klein percentage vh vertaalvolume
“vertaling is niets meer dan een geheime code”
Een tekst in het Spaans is een codering in geheimschrift van een tekst in het Nederlands
Door statistische technieken kan dat schrift ontcijferd worden
Workflow vertalers?
Bureaus werken met vertaalgeheugens die alle voordien vertaalde zinnen onthoudt
+ fuzzy matching:
Automatische vertaling (GT, DeepL) + nabewerking = eventueel met eigen woordenboeken