Resume

samenvatting - taaltechnologie hoofdstuk 5

Note

Vendu

Pages

Publié le

10-02-2025

Écrit en

2024/2025

Dit document is een combinatie van notities tijdens colleges en een samenvatting van de syllabus gemaakt door de prof zelf. (Walter Daelemans)

Établissement

Cours

Aperçu du contenu

TAALTECH 5

5. TOEPASSINGEN VAN TAALTECHNOLOGIE

A. INLEIDING

 alle taaltechnologietoepassingen kunnen gebeuren met LLM’s of diepe neurale netwerken waarop ze based zijn
= gaat van taalkundig kennis gebaseerd – statische systemen – voorgetrainde taalmodellen

 in dit hoofdstuk ligt de focus op de aard van problemen en actuele oplossing en NIET MEER op de aanpak

De toepassingen in dit HS:
 Search (zoekmachines)
 Automatisch vertalen
 Tekst Mining (vraag-antwoord systemen, informatie-extractie, automatisch samenvatten)
 Stylometrie

B. ZOEKMACHINES

 Zoekmachines zijn met automatische vertaling één vd oudste toepassingen vd taaltechnologie
 De technologie werd pas echt belangrijk met het ontstaan vh WWW
 Snel zoeken in grote hoeveelheden webpagina’s zou commercieel belangrijk w vanaf toen
 Google = de belangrijkste zoekmachine
 Schaalbaar: kan met extreem grote hoeveelheden documenten en zoekvragen (queries)
 WRM zo’n dominante positie?
 (1) de eenvoud vd startpagina
 (2) het PageRank algoritme: de beste antwoorden zitten bovenaan gerankt
 Evaluatie van een zoekmachine?
 Relevantie t.o.v. de zoekvraag: precies en bereik (zie hieronder)
 Geoptimaliseerd op precisie, bereik kennen de makers van zoekmachines niet

RELEVANTIE: PAGERANK ALGORITME
= een systeem dat kijkt naar de structuur van verbindingen (links) tussen webpagina’s om te bepalen welke pagina’s
het meest betrouwbaar en relevant zijn
 Authorities = pagina’s waarnaar verschillende andere pagina’s verwijzen
 Hubs = pagina’s die zelf naar andere pagina’s verwijzen

 Die webpagina’s zijn relevant en krijgen een hoge PageRank
 Het is wel belangrijk welke pagina’s naar hen verwijzen of naar welke pagina’s ze zelf verwijzen
 Die moeten zelf namelijk ook een hoge PageRank hebben

 DUS het bepaalt de relevantie v webpagina’s o.b.v. het aantal en de kwaliteit van de links naar de pagina
 Recursief proces: om de PR van pagina a te kennen moet je die ook van andere documenten kennen
 Daar zijn wiskundige schattingsmethodes voor
 Deze oplossing = essentieel door het correct ordenen van resultaten naar relevantie
 MAAR wat is een goede evaluatie vd ordening van resultaten?
 Precisie: deel aantal relevante documenten door het totale aantal gevonden documenten
 Documenten moeten relevant zijn voor het oplossen vd zoekvraag
 Bereik: deel aantal relevante documenten door het totale aantal in hele documentverzameling
 Je wil zeker zijn dat je geen relevante documenten gemist hebt

, ONDERDELEN ZOEKMACHINES

1. Googlebot: web spider of crawler
 Doorzoekt het WWW en bewaart de tekst van elke pagina die hij tegenkomt
 Volgt de links naar andere pagina’s
 CONCLUSIE? Google komt vaak langs bij belangrijkste websites
2. Een indexering
 Elke pagina w geïndexeerd  relevante woorden w uit de tekst gehaald en in een index geplaatst
 GEEN lidwoorden en dergelijke
 Een index: geeft voor elk woord aan op welke plaats in welke documenten dat woord voorkomt
3. Zoekvraagverwerking (query processing)
 Na de zoekvraag worden de woorden ervan opgezocht in de index
 ZO worden er pagina’s gezocht waarin de woorden vd zoekvraag voorkomen
 Deze documenten worden geordend volgens hun PageRank

TAALTECHNOLOGIE IN GOOGLE
 Google maakt gebruik van taaltechnologie
 Bruikbare meertalige spellingcorrectie
 Gaat spelfouten bijna correct corrigeren  “bedoel je …”
 Lemmatisering = soort van morfologische analyse die ook gebeurt door search engines
 Vb: als je “dietary” ingeeft zal ook gedacht worden aan “diet, diets, …”
 Synoniemen = denken aan andere woorden
 “adSense”: context-afhankelijke reclame
 Vb: Java kan een koffiemerk, programmeertaal of eiland zijn
 Hoe beslissen ze dan welke reclame ze op een bepaalde website zetten?
 Website analyseren en proberen achterhalen in welke context van Java men zit
 Automatische vertaling, spraakherkenning en -synthese
 Google Knowledge Graph
 = conceptherkenning, feiten en events

 CONCLUSIE? LLM’s (Gemini) hebben deze taken waarschijnlijk al overgenomen

. AUTOMATISCH VERTALEN

 Taaltechnologie is eigenlijk ontstaan om een oplossing te bieden voor automatische vertaling
 DOEL? Ontwikkeling v systemen die automatisch tekst in de ene taal naar andere taal omzetten
 Vertaling van zakelijke teksten door de computer
 Inclusief spraakvertaling (vertaaltelefoon)
 Niemand dacht eraan dat literair vertalen ooit mogelijk zou zijn
 MAAR je kan ze toch een poging laten doen
 Langs de andere kant niet zo belangrijk want is maar een klein percentage vh vertaalvolume
 “vertaling is niets meer dan een geheime code”
 Een tekst in het Spaans is een codering in geheimschrift van een tekst in het Nederlands
 Door statistische technieken kan dat schrift ontcijferd worden
 Workflow vertalers?
 Bureaus werken met vertaalgeheugens die alle voordien vertaalde zinnen onthoudt
 + fuzzy matching:
 Automatische vertaling (GT, DeepL) + nabewerking = eventueel met eigen woordenboeken

Signaler une violation de copyright

École, étude et sujet

Établissement: Universiteit Antwerpen (UA)
Cours: Toegepaste Taalkunde: Frans Spaans
Cours: Taaltechnologie

Infos sur le Document

Publié le: 10 février 2025
Nombre de pages: 5
Écrit en: 2024/2025
Type: RESUME

Sujets

€5,06

Accéder à l'intégralité du document:

Rédigé par des étudiants ayant réussi

Disponible immédiatement après paiement

Lire en ligne ou en PDF

Faites connaissance avec le vendeur

lunaamolenberghs

5,0

(2)

Document également disponible en groupe

Faites connaissance avec le vendeur

lunaamolenberghs Universiteit Antwerpen

Voir profil

Vendu

Membre depuis

2 année

Nombre de followers

Documents

Dernière vente

3 semaines de cela

5,0

2 revues

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur lunaamolenberghs. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €5,06. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis) 37102 résumés ont été vendus ces 30 derniers jours Fondée en 2010, la référence pour acheter des résumés depuis déjà 16 ans

samenvatting - taaltechnologie hoofdstuk 5

Aperçu du contenu

École, étude et sujet

Infos sur le Document

Sujets

Plus de cours sur Universiteit Antwerpen (UA) > Toegepaste Taalkunde: Frans Spaans

Document également disponible en groupe

Faites connaissance avec le vendeur

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Le document ne convient pas ? Choisis un autre document

Paye comme tu veux, apprends aussitôt

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Garantie de remboursement : comment ça marche ?

Auprès de qui est-ce que j'achète ce résumé ?

Est-ce que j'aurai un abonnement?

Peut-on faire confiance à Stuvia ?