Resume

samenvatting ciw 2e jaars Taal en technologie

Note

Vendu

Pages

Publié le

22-06-2025

Écrit en

2024/2025

dit is een samenvatting voor 2e jaars ciw studenten aan de universiteit van utrecht.

Établissement

Cours

Oups ! Impossible de charger votre document. Réessayez ou contactez le support.

Signaler une violation de copyright

Livre connecté

Veronique Hoste, Cynthia Van Hee Taaltechnologie ontrafeld

Édition:13 mei 2024
ISBN:9789463106221
Édition:1

École, étude et sujet

Établissement: Universiteit Utrecht (UU)
Cours: Communicatie- en informatiewetenschappen
Cours: Taal en Technologie (CI2V17001)

Tous les documents sur ce sujet (6)

Infos sur le Document

Livre entier ?: Oui
Publié le: 22 juin 2025
Nombre de pages: 26
Écrit en: 2024/2025
Type: Resume

Sujets

alle stof
vectoren
encoder
decoder
large languae model

Aperçu du contenu

Boek Taal & Technologie
Deel 1
1.1.1
Taaltechnologie is
1. Een discipline binnen artiﬁciële intelligentie.
2. Het verwijzen naar concrete toepassingen die mensen in staat stellen te communiceren met
computers

Hierbij wordt natuurlijketaalverwerking (NLP) gehanteerd; het inzetten van technologie om taal te
analyseren of genereren. De vier deelprocessen hiervan;
1. Spraakherkenning; het herkennen van een stem en omzetten in woorden
2. Tekstinterpretatie; het begrijpen van een vraag en de intentie achterhalen
3. Tekstgeneratie; het correcte antwoord op een vraag vinden en omzetten in woorden
4. Spraaksynthese; een woordcombinatie omzetten in klanken

Het menselijk denken is verweven met taal. Machinelearning; NLP systemen die ontstaan door het trainen
van een algoritme met behulp van een dataset.

De geschiedenis van AI;

1.1.2
Technologische vooruitgang gaat gepaard met beperkingen. Denk vooral aan dubbelzinnigheid bij
ambiguïteit waardoor verwarring ontstaat (wij, wei etc.-> fonetisch niveau). Ambiguïteit bestaat op vier
niveaus. Sommige niveaus hebben informatie nodig van de andere. Het watervalmodel hanteert vier stappen
waarmee tekstbegrip verkregen kan worden, dit gaat als volgt;

Naam Deﬁnitie Tekstbegrip Voorbeeld
Morfologisch niveau Dubbelzinnigheid op Identiﬁceren van Massagebed
niveau van woorden zinnen en woorden
en grammaticale
structuur analyseren

, Syntactisch niveau Dubbelzinnigheid op Achterhalen hoe De politie verwondde de
niveau van zinnen woorden man met het pistool
gecombineerd zijn
tot woordgroepen,
zinsdelen of zinnen

Semantisch niveau Woorden met meerdere Betekenis toewijzen Muis
betekenissen aan woordgroepen of
zinnen

Discoursniveau Verwijswoorden die Betekenis en Marie nodigt Suzanne uit,
meer context vereisen structuur te ze had een witte broek
begrijpen op basis aan
van zinnen, alinea’s
of teksten

1.2.1
De voorbereidende stappen van het watervalmodel
 Zinssplitsing; het opdelen van een tekst in zinnen
 Tokenisering; het opdelen van zinnen in kleinere eenheden

Analyse per niveau:
Morfologische analyse
Richt zich op de interne structuur van woorden en analyseert welke vormen woorden aannemen,
denk aan enkelvoud/meervoud, vervoegingen etc. Dit is de belangrijkste stap van in tekstanalyse,
omdat de structuur van een woord de betekenis bepaalt. Het kijkt ook naar voegsels. Die aanduiding
gebeurt met tags, een soort code met de hele zin opgesplitst in zinsdelen.
Morfosyntactische analyse/ part-of-speech tagging (PoS-tagging)
Combinatie van woordstructuur en zinsstructuur en hoe deze integreren. Dit proces wijst aan elke
token van een zin een woordsoort toe. De analyse hiervan gebeurt door naar de woorden op zichzelf
en de context hiervan te kijken, wat gebeurt met de PoS. Vervolgens kan de informatie gebruikt
worden voor lemmatisering; het herleiden van woorden tot hun basisvorm.
Syntactische analyse
Functies worden toegekend aan zinsdelen en tokens, ook wel parsing genoemd. Dit levert een
syntactische-analyseboom op. Dit laat zien hoe een zin is opgebouwd en lost ambiguïteit op. Stelt
ook computers in staat om relaties weer te geven.
Semantische analyse
Het achterhalen van betekenissen. Hierbij kunnen verschillende problemen ontstaan:
1. Lexicale ambiguïteit: een woord met meerdere betekenissen. Voorbeeld: bank (zitmeubel
/ geldinstelling)
2. Homoniem: zelfde vorm, totaal andere betekenis. Voorbeeld: arm (lichaamsdeel / niet rijk)
3. Polysemie: één woord met verwante betekenissen. Voorbeeld: hoofd (lichaamsdeel /
leider)
Er zijn twee toepassingen om de juiste betekenis te bepalen:
1. Automatische desambiguering (Word Sense Disambiguation). WSD stelt computers in
om aan de hand van de context de betekenis te bepalen. Die aanpak komt voort uit de
distributionele hypothese die dit ook stelt.
2. Automatisch herkennen van eigennamen (Named Entity Recognition). NER heeft een
computerprogramma die eigennamen identiﬁceert en toewijst aan categorieën, zoals

, namen, locaties etc. Voor teksten met hoge speciﬁcatie is NER een uitdaging, omdat niet
alle speciﬁcaties zijn opgenomen in de trainingsdata. Evoluerende taal en stijlﬁguren zijn
ook uitdagend.
Discoursanalyse
Een belangrijk onderdeel is conferentieresolutie, het oplossen van dubbelzinnigheid. Conferentie
betekent dat meerdere woorden of woordgroepen naar hetzelfde verwijzen

1.2.2
Op elk niveau kan het ontbreken van pragmatiek en wereldkennis een tekstanalyse fout maken.
 Pragmatiek bestudeert de relatie tussen taaluitdrukkingen en context of situaties waarin ze passen.
Denk hierbij ook aan ironie.
 Wereldkennis omvat alle informatie en feiten over de wereld en cultuur. Toegang tot dezelfde
wereldkennis is een voorwaarde voor geslaagde communicatie.
Beiden zijn minder toegankelijk voor computerprogramma’s, wat databanken en systemen vereist.

1.3.1
Een computerprogramma kan taal op een expliciete of op een impliciete manier leren:
 Regelgebaseerd (expliciet); taal leren aan de hand van een uitgebreide set regels opgesteld door
experts. Omvat een verzameling van regels die door mensen geprogrammeerd worden om
computers stapsgewijs een taak uit te laten voeren. Dit zijn dus expliciete instructies. Ook is het een
top-down en deductieve aanpak. Uitzonderingen kunnen regel-gebaseerde systemen complex
maken. Regelgebaseerde systemen blijven nuttig; soms is er te weinig informatie voor een
datasysteem of soms is de taak eenvoudig genoeg. Een chatbot is meestal een regelgebaseerd
systeem.
 Datagebaseeerd (impliciet); programma beslist niet met behulp van regels vooral, maar met
behulp van kennis die nodig is taken uit de data uit te voeren. Heeft een bottom-up en inductieve
aanpak. Er worden dus geen beslissingen gemaakt op basis van expliciete instructies, maar leert
patronen uit voorbeelden, wat ook machinelearning heet. Een datagebaseerd systeem bestaat uit:
data, taken, leerprocessen en evalueren.

Data
 Bij natuurlijketaalverwerking is authentieke, niet-artiﬁciële taal nodig. Een verzameling van deze
data wordt een corpus genoemd. Hierbij hoort ook metadata; data over data. Je kan een corpus
verzamelen door te downloaden, te scrapen (automatisch verzamelen) of tools te gebruiken. Een
Optical Character Recognition kan afbeeldingen omzetten in tekst.
 Het voornaamste criterium is dat de data een representatieve weergave vormt voor de taak. Denk
aan de juiste teksten vinden om een vertaalsysteem op te baseren.
 Het is belangrijk om het corpus samen te laten stellen door experts of door middel van
webcrawling, oftewel automatisch verzamelen. Daarnaast mag er geen bias ontstaan.
 Een corpus moet ook de juiste grootte hebben met een juiste variatie. Hoe meer data, hoe een
systeem tot zijn beschikking heeft om uit te leren. Er geldt echter wel: meer data is niet altijd beter.
GIGO is hiervoor een waarschuwing; een systeem kan alleen waardevolle uitput geven als de input
waardevol is. Zowel kwaliteit als kwantiteit, maar ook relevantie is belangrijk.
 Data hebben labels nodig. Crowdsourcing wordt gebruikt van collectieve vaardigheden en kennis
van mensen om gegevens te verzamelen. Er is hierbij sprake van citizen science. Vrijwilligers
verzamelen data voor wetenschappelijk onderzoek en brengen zo wetenschap dichterbij de
maatschappij.

€6,16

Accéder à l'intégralité du document:

Garantie de satisfaction à 100%

Disponible immédiatement après paiement

En ligne et en PDF

Tu n'es attaché à rien

Faites connaissance avec le vendeur

isalunarutten

Faites connaissance avec le vendeur

isalunarutten Universiteit Utrecht

Voir profil

Vendu

Membre depuis

2 année

Nombre de followers

Documents

Dernière vente

0,0

0 revues

Récemment consulté par vous

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur isalunarutten. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €6,16. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis) 42103 résumés ont été vendus ces 30 derniers jours Fondée en 2010, la référence pour acheter des résumés depuis déjà 15 ans

samenvatting ciw 2e jaars Taal en technologie

Livre connecté

École, étude et sujet

Infos sur le Document

Sujets

Aperçu du contenu

Plus de cours sur Universiteit Utrecht (UU) > Communicatie- en informatiewetenschappen

Faites connaissance avec le vendeur

Récemment consulté par vous

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Le document ne convient pas ? Choisis un autre document

Paye comme tu veux, apprends aussitôt

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Garantie de remboursement : comment ça marche ?

Auprès de qui est-ce que j'achète ce résumé ?

Est-ce que j'aurai un abonnement?

Peut-on faire confiance à Stuvia ?