100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

samenvatting ciw 2e jaars Taal en technologie

Rating
-
Sold
-
Pages
26
Uploaded on
22-06-2025
Written in
2024/2025

dit is een samenvatting voor 2e jaars ciw studenten aan de universiteit van utrecht.

Institution
Course










Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
Yes
Uploaded on
June 22, 2025
Number of pages
26
Written in
2024/2025
Type
Summary

Subjects

Content preview

Boek Taal & Technologie
Deel 1
1.1.1
Taaltechnologie is
1. Een discipline binnen artificiële intelligentie.
2. Het verwijzen naar concrete toepassingen die mensen in staat stellen te communiceren met
computers

Hierbij wordt natuurlijketaalverwerking (NLP) gehanteerd; het inzetten van technologie om taal te
analyseren of genereren. De vier deelprocessen hiervan;
1. Spraakherkenning; het herkennen van een stem en omzetten in woorden
2. Tekstinterpretatie; het begrijpen van een vraag en de intentie achterhalen
3. Tekstgeneratie; het correcte antwoord op een vraag vinden en omzetten in woorden
4. Spraaksynthese; een woordcombinatie omzetten in klanken

Het menselijk denken is verweven met taal. Machinelearning; NLP systemen die ontstaan door het trainen
van een algoritme met behulp van een dataset.

De geschiedenis van AI;




1.1.2
Technologische vooruitgang gaat gepaard met beperkingen. Denk vooral aan dubbelzinnigheid bij
ambiguïteit waardoor verwarring ontstaat (wij, wei etc.-> fonetisch niveau). Ambiguïteit bestaat op vier
niveaus. Sommige niveaus hebben informatie nodig van de andere. Het watervalmodel hanteert vier stappen
waarmee tekstbegrip verkregen kan worden, dit gaat als volgt;

Naam Definitie Tekstbegrip Voorbeeld
Morfologisch niveau Dubbelzinnigheid op Identificeren van Massagebed
niveau van woorden zinnen en woorden
en grammaticale
structuur analyseren

, Syntactisch niveau Dubbelzinnigheid op Achterhalen hoe De politie verwondde de
niveau van zinnen woorden man met het pistool
gecombineerd zijn
tot woordgroepen,
zinsdelen of zinnen


Semantisch niveau Woorden met meerdere Betekenis toewijzen Muis
betekenissen aan woordgroepen of
zinnen


Discoursniveau Verwijswoorden die Betekenis en Marie nodigt Suzanne uit,
meer context vereisen structuur te ze had een witte broek
begrijpen op basis aan
van zinnen, alinea’s
of teksten


1.2.1
De voorbereidende stappen van het watervalmodel
 Zinssplitsing; het opdelen van een tekst in zinnen
 Tokenisering; het opdelen van zinnen in kleinere eenheden

Analyse per niveau:
Morfologische analyse
Richt zich op de interne structuur van woorden en analyseert welke vormen woorden aannemen,
denk aan enkelvoud/meervoud, vervoegingen etc. Dit is de belangrijkste stap van in tekstanalyse,
omdat de structuur van een woord de betekenis bepaalt. Het kijkt ook naar voegsels. Die aanduiding
gebeurt met tags, een soort code met de hele zin opgesplitst in zinsdelen.
Morfosyntactische analyse/ part-of-speech tagging (PoS-tagging)
Combinatie van woordstructuur en zinsstructuur en hoe deze integreren. Dit proces wijst aan elke
token van een zin een woordsoort toe. De analyse hiervan gebeurt door naar de woorden op zichzelf
en de context hiervan te kijken, wat gebeurt met de PoS. Vervolgens kan de informatie gebruikt
worden voor lemmatisering; het herleiden van woorden tot hun basisvorm.
Syntactische analyse
Functies worden toegekend aan zinsdelen en tokens, ook wel parsing genoemd. Dit levert een
syntactische-analyseboom op. Dit laat zien hoe een zin is opgebouwd en lost ambiguïteit op. Stelt
ook computers in staat om relaties weer te geven.
Semantische analyse
Het achterhalen van betekenissen. Hierbij kunnen verschillende problemen ontstaan:
1. Lexicale ambiguïteit: een woord met meerdere betekenissen. Voorbeeld: bank (zitmeubel
/ geldinstelling)
2. Homoniem: zelfde vorm, totaal andere betekenis. Voorbeeld: arm (lichaamsdeel / niet rijk)
3. Polysemie: één woord met verwante betekenissen. Voorbeeld: hoofd (lichaamsdeel /
leider)
Er zijn twee toepassingen om de juiste betekenis te bepalen:
1. Automatische desambiguering (Word Sense Disambiguation). WSD stelt computers in
om aan de hand van de context de betekenis te bepalen. Die aanpak komt voort uit de
distributionele hypothese die dit ook stelt.
2. Automatisch herkennen van eigennamen (Named Entity Recognition). NER heeft een
computerprogramma die eigennamen identificeert en toewijst aan categorieën, zoals

, namen, locaties etc. Voor teksten met hoge specificatie is NER een uitdaging, omdat niet
alle specificaties zijn opgenomen in de trainingsdata. Evoluerende taal en stijlfiguren zijn
ook uitdagend.
Discoursanalyse
Een belangrijk onderdeel is conferentieresolutie, het oplossen van dubbelzinnigheid. Conferentie
betekent dat meerdere woorden of woordgroepen naar hetzelfde verwijzen


1.2.2
Op elk niveau kan het ontbreken van pragmatiek en wereldkennis een tekstanalyse fout maken.
 Pragmatiek bestudeert de relatie tussen taaluitdrukkingen en context of situaties waarin ze passen.
Denk hierbij ook aan ironie.
 Wereldkennis omvat alle informatie en feiten over de wereld en cultuur. Toegang tot dezelfde
wereldkennis is een voorwaarde voor geslaagde communicatie.
Beiden zijn minder toegankelijk voor computerprogramma’s, wat databanken en systemen vereist.


1.3.1
Een computerprogramma kan taal op een expliciete of op een impliciete manier leren:
 Regelgebaseerd (expliciet); taal leren aan de hand van een uitgebreide set regels opgesteld door
experts. Omvat een verzameling van regels die door mensen geprogrammeerd worden om
computers stapsgewijs een taak uit te laten voeren. Dit zijn dus expliciete instructies. Ook is het een
top-down en deductieve aanpak. Uitzonderingen kunnen regel-gebaseerde systemen complex
maken. Regelgebaseerde systemen blijven nuttig; soms is er te weinig informatie voor een
datasysteem of soms is de taak eenvoudig genoeg. Een chatbot is meestal een regelgebaseerd
systeem.
 Datagebaseeerd (impliciet); programma beslist niet met behulp van regels vooral, maar met
behulp van kennis die nodig is taken uit de data uit te voeren. Heeft een bottom-up en inductieve
aanpak. Er worden dus geen beslissingen gemaakt op basis van expliciete instructies, maar leert
patronen uit voorbeelden, wat ook machinelearning heet. Een datagebaseerd systeem bestaat uit:
data, taken, leerprocessen en evalueren.

Data
 Bij natuurlijketaalverwerking is authentieke, niet-artificiële taal nodig. Een verzameling van deze
data wordt een corpus genoemd. Hierbij hoort ook metadata; data over data. Je kan een corpus
verzamelen door te downloaden, te scrapen (automatisch verzamelen) of tools te gebruiken. Een
Optical Character Recognition kan afbeeldingen omzetten in tekst.
 Het voornaamste criterium is dat de data een representatieve weergave vormt voor de taak. Denk
aan de juiste teksten vinden om een vertaalsysteem op te baseren.
 Het is belangrijk om het corpus samen te laten stellen door experts of door middel van
webcrawling, oftewel automatisch verzamelen. Daarnaast mag er geen bias ontstaan.
 Een corpus moet ook de juiste grootte hebben met een juiste variatie. Hoe meer data, hoe een
systeem tot zijn beschikking heeft om uit te leren. Er geldt echter wel: meer data is niet altijd beter.
GIGO is hiervoor een waarschuwing; een systeem kan alleen waardevolle uitput geven als de input
waardevol is. Zowel kwaliteit als kwantiteit, maar ook relevantie is belangrijk.
 Data hebben labels nodig. Crowdsourcing wordt gebruikt van collectieve vaardigheden en kennis
van mensen om gegevens te verzamelen. Er is hierbij sprake van citizen science. Vrijwilligers
verzamelen data voor wetenschappelijk onderzoek en brengen zo wetenschap dichterbij de
maatschappij.
$7.47
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Get to know the seller
Seller avatar
isalunarutten

Get to know the seller

Seller avatar
isalunarutten Universiteit Utrecht
Follow You need to be logged in order to follow users or courses
Sold
0
Member since
2 year
Number of followers
0
Documents
1
Last sold
-

0.0

0 reviews

5
0
4
0
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions