Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien 4.2 TrustPilot
logo-home
Resume

samenvatting - taaltechnologie hoofdstuk 5

Note
-
Vendu
-
Pages
5
Publié le
10-02-2025
Écrit en
2024/2025

Dit document is een combinatie van notities tijdens colleges en een samenvatting van de syllabus gemaakt door de prof zelf. (Walter Daelemans)










Oups ! Impossible de charger votre document. Réessayez ou contactez le support.

Infos sur le Document

Publié le
10 février 2025
Nombre de pages
5
Écrit en
2024/2025
Type
Resume

Aperçu du contenu

TAALTECH 5

5. TOEPASSINGEN VAN TAALTECHNOLOGIE

A. INLEIDING

 alle taaltechnologietoepassingen kunnen gebeuren met LLM’s of diepe neurale netwerken waarop ze based zijn
= gaat van taalkundig kennis gebaseerd – statische systemen – voorgetrainde taalmodellen

 in dit hoofdstuk ligt de focus op de aard van problemen en actuele oplossing en NIET MEER op de aanpak

De toepassingen in dit HS:
 Search (zoekmachines)
 Automatisch vertalen
 Tekst Mining (vraag-antwoord systemen, informatie-extractie, automatisch samenvatten)
 Stylometrie

B. ZOEKMACHINES

 Zoekmachines zijn met automatische vertaling één vd oudste toepassingen vd taaltechnologie
 De technologie werd pas echt belangrijk met het ontstaan vh WWW
 Snel zoeken in grote hoeveelheden webpagina’s zou commercieel belangrijk w vanaf toen
 Google = de belangrijkste zoekmachine
 Schaalbaar: kan met extreem grote hoeveelheden documenten en zoekvragen (queries)
 WRM zo’n dominante positie?
 (1) de eenvoud vd startpagina
 (2) het PageRank algoritme: de beste antwoorden zitten bovenaan gerankt
 Evaluatie van een zoekmachine?
 Relevantie t.o.v. de zoekvraag: precies en bereik (zie hieronder)
 Geoptimaliseerd op precisie, bereik kennen de makers van zoekmachines niet

RELEVANTIE: PAGERANK ALGORITME
= een systeem dat kijkt naar de structuur van verbindingen (links) tussen webpagina’s om te bepalen welke pagina’s
het meest betrouwbaar en relevant zijn
 Authorities = pagina’s waarnaar verschillende andere pagina’s verwijzen
 Hubs = pagina’s die zelf naar andere pagina’s verwijzen

 Die webpagina’s zijn relevant en krijgen een hoge PageRank
 Het is wel belangrijk welke pagina’s naar hen verwijzen of naar welke pagina’s ze zelf verwijzen
 Die moeten zelf namelijk ook een hoge PageRank hebben

 DUS het bepaalt de relevantie v webpagina’s o.b.v. het aantal en de kwaliteit van de links naar de pagina
 Recursief proces: om de PR van pagina a te kennen moet je die ook van andere documenten kennen
 Daar zijn wiskundige schattingsmethodes voor
 Deze oplossing = essentieel door het correct ordenen van resultaten naar relevantie
 MAAR wat is een goede evaluatie vd ordening van resultaten?
 Precisie: deel aantal relevante documenten door het totale aantal gevonden documenten
 Documenten moeten relevant zijn voor het oplossen vd zoekvraag
 Bereik: deel aantal relevante documenten door het totale aantal in hele documentverzameling
 Je wil zeker zijn dat je geen relevante documenten gemist hebt

, ONDERDELEN ZOEKMACHINES

1. Googlebot: web spider of crawler
 Doorzoekt het WWW en bewaart de tekst van elke pagina die hij tegenkomt
 Volgt de links naar andere pagina’s
 CONCLUSIE? Google komt vaak langs bij belangrijkste websites
2. Een indexering
 Elke pagina w geïndexeerd  relevante woorden w uit de tekst gehaald en in een index geplaatst
 GEEN lidwoorden en dergelijke
 Een index: geeft voor elk woord aan op welke plaats in welke documenten dat woord voorkomt
3. Zoekvraagverwerking (query processing)
 Na de zoekvraag worden de woorden ervan opgezocht in de index
 ZO worden er pagina’s gezocht waarin de woorden vd zoekvraag voorkomen
 Deze documenten worden geordend volgens hun PageRank

TAALTECHNOLOGIE IN GOOGLE
 Google maakt gebruik van taaltechnologie
 Bruikbare meertalige spellingcorrectie
 Gaat spelfouten bijna correct corrigeren  “bedoel je …”
 Lemmatisering = soort van morfologische analyse die ook gebeurt door search engines
 Vb: als je “dietary” ingeeft zal ook gedacht worden aan “diet, diets, …”
 Synoniemen = denken aan andere woorden
 “adSense”: context-afhankelijke reclame
 Vb: Java kan een koffiemerk, programmeertaal of eiland zijn
 Hoe beslissen ze dan welke reclame ze op een bepaalde website zetten?
 Website analyseren en proberen achterhalen in welke context van Java men zit
 Automatische vertaling, spraakherkenning en -synthese
 Google Knowledge Graph
 = conceptherkenning, feiten en events

 CONCLUSIE? LLM’s (Gemini) hebben deze taken waarschijnlijk al overgenomen

. AUTOMATISCH VERTALEN

 Taaltechnologie is eigenlijk ontstaan om een oplossing te bieden voor automatische vertaling
 DOEL? Ontwikkeling v systemen die automatisch tekst in de ene taal naar andere taal omzetten
 Vertaling van zakelijke teksten door de computer
 Inclusief spraakvertaling (vertaaltelefoon)
 Niemand dacht eraan dat literair vertalen ooit mogelijk zou zijn
 MAAR je kan ze toch een poging laten doen
 Langs de andere kant niet zo belangrijk want is maar een klein percentage vh vertaalvolume
 “vertaling is niets meer dan een geheime code”
 Een tekst in het Spaans is een codering in geheimschrift van een tekst in het Nederlands
 Door statistische technieken kan dat schrift ontcijferd worden
 Workflow vertalers?
 Bureaus werken met vertaalgeheugens die alle voordien vertaalde zinnen onthoudt
 + fuzzy matching:
 Automatische vertaling (GT, DeepL) + nabewerking = eventueel met eigen woordenboeken
€4,56
Accéder à l'intégralité du document:

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Faites connaissance avec le vendeur
Seller avatar
lunaamolenberghs

Document également disponible en groupe

Thumbnail
Package deal
volledige samenvatting taaltechnologie
-
5 2025
€ 22,80 Plus d'infos

Faites connaissance avec le vendeur

Seller avatar
lunaamolenberghs Universiteit Antwerpen
Voir profil
S'abonner Vous devez être connecté afin de suivre les étudiants ou les cours
Vendu
4
Membre depuis
1 année
Nombre de followers
0
Documents
33
Dernière vente
4 mois de cela

0,0

0 revues

5
0
4
0
3
0
2
0
1
0

Récemment consulté par vous

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

Student with book image

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions