Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien 4.2 TrustPilot
logo-home
Resume

samenvatting ciw 2e jaars Taal en technologie

Note
-
Vendu
-
Pages
26
Publié le
22-06-2025
Écrit en
2024/2025

dit is een samenvatting voor 2e jaars ciw studenten aan de universiteit van utrecht.

Établissement
Cours










Oups ! Impossible de charger votre document. Réessayez ou contactez le support.

Livre connecté

École, étude et sujet

Établissement
Cours
Cours

Infos sur le Document

Livre entier ?
Oui
Publié le
22 juin 2025
Nombre de pages
26
Écrit en
2024/2025
Type
Resume

Sujets

Aperçu du contenu

Boek Taal & Technologie
Deel 1
1.1.1
Taaltechnologie is
1. Een discipline binnen artificiële intelligentie.
2. Het verwijzen naar concrete toepassingen die mensen in staat stellen te communiceren met
computers

Hierbij wordt natuurlijketaalverwerking (NLP) gehanteerd; het inzetten van technologie om taal te
analyseren of genereren. De vier deelprocessen hiervan;
1. Spraakherkenning; het herkennen van een stem en omzetten in woorden
2. Tekstinterpretatie; het begrijpen van een vraag en de intentie achterhalen
3. Tekstgeneratie; het correcte antwoord op een vraag vinden en omzetten in woorden
4. Spraaksynthese; een woordcombinatie omzetten in klanken

Het menselijk denken is verweven met taal. Machinelearning; NLP systemen die ontstaan door het trainen
van een algoritme met behulp van een dataset.

De geschiedenis van AI;




1.1.2
Technologische vooruitgang gaat gepaard met beperkingen. Denk vooral aan dubbelzinnigheid bij
ambiguïteit waardoor verwarring ontstaat (wij, wei etc.-> fonetisch niveau). Ambiguïteit bestaat op vier
niveaus. Sommige niveaus hebben informatie nodig van de andere. Het watervalmodel hanteert vier stappen
waarmee tekstbegrip verkregen kan worden, dit gaat als volgt;

Naam Definitie Tekstbegrip Voorbeeld
Morfologisch niveau Dubbelzinnigheid op Identificeren van Massagebed
niveau van woorden zinnen en woorden
en grammaticale
structuur analyseren

, Syntactisch niveau Dubbelzinnigheid op Achterhalen hoe De politie verwondde de
niveau van zinnen woorden man met het pistool
gecombineerd zijn
tot woordgroepen,
zinsdelen of zinnen


Semantisch niveau Woorden met meerdere Betekenis toewijzen Muis
betekenissen aan woordgroepen of
zinnen


Discoursniveau Verwijswoorden die Betekenis en Marie nodigt Suzanne uit,
meer context vereisen structuur te ze had een witte broek
begrijpen op basis aan
van zinnen, alinea’s
of teksten


1.2.1
De voorbereidende stappen van het watervalmodel
 Zinssplitsing; het opdelen van een tekst in zinnen
 Tokenisering; het opdelen van zinnen in kleinere eenheden

Analyse per niveau:
Morfologische analyse
Richt zich op de interne structuur van woorden en analyseert welke vormen woorden aannemen,
denk aan enkelvoud/meervoud, vervoegingen etc. Dit is de belangrijkste stap van in tekstanalyse,
omdat de structuur van een woord de betekenis bepaalt. Het kijkt ook naar voegsels. Die aanduiding
gebeurt met tags, een soort code met de hele zin opgesplitst in zinsdelen.
Morfosyntactische analyse/ part-of-speech tagging (PoS-tagging)
Combinatie van woordstructuur en zinsstructuur en hoe deze integreren. Dit proces wijst aan elke
token van een zin een woordsoort toe. De analyse hiervan gebeurt door naar de woorden op zichzelf
en de context hiervan te kijken, wat gebeurt met de PoS. Vervolgens kan de informatie gebruikt
worden voor lemmatisering; het herleiden van woorden tot hun basisvorm.
Syntactische analyse
Functies worden toegekend aan zinsdelen en tokens, ook wel parsing genoemd. Dit levert een
syntactische-analyseboom op. Dit laat zien hoe een zin is opgebouwd en lost ambiguïteit op. Stelt
ook computers in staat om relaties weer te geven.
Semantische analyse
Het achterhalen van betekenissen. Hierbij kunnen verschillende problemen ontstaan:
1. Lexicale ambiguïteit: een woord met meerdere betekenissen. Voorbeeld: bank (zitmeubel
/ geldinstelling)
2. Homoniem: zelfde vorm, totaal andere betekenis. Voorbeeld: arm (lichaamsdeel / niet rijk)
3. Polysemie: één woord met verwante betekenissen. Voorbeeld: hoofd (lichaamsdeel /
leider)
Er zijn twee toepassingen om de juiste betekenis te bepalen:
1. Automatische desambiguering (Word Sense Disambiguation). WSD stelt computers in
om aan de hand van de context de betekenis te bepalen. Die aanpak komt voort uit de
distributionele hypothese die dit ook stelt.
2. Automatisch herkennen van eigennamen (Named Entity Recognition). NER heeft een
computerprogramma die eigennamen identificeert en toewijst aan categorieën, zoals

, namen, locaties etc. Voor teksten met hoge specificatie is NER een uitdaging, omdat niet
alle specificaties zijn opgenomen in de trainingsdata. Evoluerende taal en stijlfiguren zijn
ook uitdagend.
Discoursanalyse
Een belangrijk onderdeel is conferentieresolutie, het oplossen van dubbelzinnigheid. Conferentie
betekent dat meerdere woorden of woordgroepen naar hetzelfde verwijzen


1.2.2
Op elk niveau kan het ontbreken van pragmatiek en wereldkennis een tekstanalyse fout maken.
 Pragmatiek bestudeert de relatie tussen taaluitdrukkingen en context of situaties waarin ze passen.
Denk hierbij ook aan ironie.
 Wereldkennis omvat alle informatie en feiten over de wereld en cultuur. Toegang tot dezelfde
wereldkennis is een voorwaarde voor geslaagde communicatie.
Beiden zijn minder toegankelijk voor computerprogramma’s, wat databanken en systemen vereist.


1.3.1
Een computerprogramma kan taal op een expliciete of op een impliciete manier leren:
 Regelgebaseerd (expliciet); taal leren aan de hand van een uitgebreide set regels opgesteld door
experts. Omvat een verzameling van regels die door mensen geprogrammeerd worden om
computers stapsgewijs een taak uit te laten voeren. Dit zijn dus expliciete instructies. Ook is het een
top-down en deductieve aanpak. Uitzonderingen kunnen regel-gebaseerde systemen complex
maken. Regelgebaseerde systemen blijven nuttig; soms is er te weinig informatie voor een
datasysteem of soms is de taak eenvoudig genoeg. Een chatbot is meestal een regelgebaseerd
systeem.
 Datagebaseeerd (impliciet); programma beslist niet met behulp van regels vooral, maar met
behulp van kennis die nodig is taken uit de data uit te voeren. Heeft een bottom-up en inductieve
aanpak. Er worden dus geen beslissingen gemaakt op basis van expliciete instructies, maar leert
patronen uit voorbeelden, wat ook machinelearning heet. Een datagebaseerd systeem bestaat uit:
data, taken, leerprocessen en evalueren.

Data
 Bij natuurlijketaalverwerking is authentieke, niet-artificiële taal nodig. Een verzameling van deze
data wordt een corpus genoemd. Hierbij hoort ook metadata; data over data. Je kan een corpus
verzamelen door te downloaden, te scrapen (automatisch verzamelen) of tools te gebruiken. Een
Optical Character Recognition kan afbeeldingen omzetten in tekst.
 Het voornaamste criterium is dat de data een representatieve weergave vormt voor de taak. Denk
aan de juiste teksten vinden om een vertaalsysteem op te baseren.
 Het is belangrijk om het corpus samen te laten stellen door experts of door middel van
webcrawling, oftewel automatisch verzamelen. Daarnaast mag er geen bias ontstaan.
 Een corpus moet ook de juiste grootte hebben met een juiste variatie. Hoe meer data, hoe een
systeem tot zijn beschikking heeft om uit te leren. Er geldt echter wel: meer data is niet altijd beter.
GIGO is hiervoor een waarschuwing; een systeem kan alleen waardevolle uitput geven als de input
waardevol is. Zowel kwaliteit als kwantiteit, maar ook relevantie is belangrijk.
 Data hebben labels nodig. Crowdsourcing wordt gebruikt van collectieve vaardigheden en kennis
van mensen om gegevens te verzamelen. Er is hierbij sprake van citizen science. Vrijwilligers
verzamelen data voor wetenschappelijk onderzoek en brengen zo wetenschap dichterbij de
maatschappij.
€6,16
Accéder à l'intégralité du document:

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Faites connaissance avec le vendeur
Seller avatar
isalunarutten

Faites connaissance avec le vendeur

Seller avatar
isalunarutten Universiteit Utrecht
S'abonner Vous devez être connecté afin de suivre les étudiants ou les cours
Vendu
0
Membre depuis
2 année
Nombre de followers
0
Documents
1
Dernière vente
-

0,0

0 revues

5
0
4
0
3
0
2
0
1
0

Récemment consulté par vous

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

Student with book image

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions