Lessen van Walter Daelemans
TAALTECHNOLOGIE
Staan voorbeeldvragen staan op het einde van elk hoofdstuk + lees cursus eerst
Er zijn lesopnames.
Examen
- Op papier
- Multiple choice (10) en 2/3 openvragen
- Studeren: je mag NotebookLM gebruikten!
Vragen?
HOOFDSTUK 1 – INLEIDING
DEFINITIE
Ontwikkeling van computermodellen met als doel
- Meer inzicht in de mogelijke representaties en processen die een rol spelen
in natuurlijke taal als systeem, in taalevolutie, in taalvariatie en in
taalverwerving en –verwerking
- De ontwikkeling van software die talige taken kan oplossen (automatische
vertaling, automatisch samenvatten, informatie-extractie, conversatie …)
COMPUTERTAALKUNDE IN DE TAAL- EN LETTERKUNDE?
- Moeilijk wetenschapsgebied
Inzicht in taal, gecombineerd met technische kennis
- Groot maatschappelijk en economisch belang
- Sterke groei als methode in de geesteswetenschap
Digital Humanities
- Sinds 2020: UAntwerpen: Internationale MA Digital Text Analysis
Programmeren in Python, statistiek, Machine Learning, tekst als data,
corpustaalkunde, natuurlijke taal verwerking, computationele
literatuurwetenschap, stage en thesis, …
https://www.uantwerpen.be/en/study/programmes/all-programmes/
digital- text-analysis/about-the-programme/
TAALTECHNOLOGIE
- Taal is het belangrijkste medium voor
Opslag van menselijke kennis
Communicatie
- Taal- en spraaktechnologie (TST) laat mensen toe
Gemakkelijker te communiceren met computers
Wereldwijd te communiceren in hun eigen taal
Vb. je praat in jouw gsm en een andere taal komt eruit
Kennis te halen uit spraak en tekst
Bijvoorbeeld: automatische samenvatting
Foutloos te schrijven
Groei van het aantal artikels die verschijnen => exponentiele groei
TERMINOLOGIE
1
,Lessen van Walter Daelemans
Computertaalkunde/ - Bestudeert taalverwerking met computermodellen
computerlinguïstiek - Taalkundige theorieën testen met
computermodellen
- Computationele psycholinguïstiek
Modelleren van menselijke taalverwerving en –
verwerking met computermodellen
Taal- en - Toepassingen van computertaalkunde
Spraaktechnologie - Nu ook in de eindtermen van secundair onderwijs
(TST, meestal gewoon (moderne talen)
Taaltechnologie,
language
engineering)
Natuurlijke - Computertaalkunde als onderdeel van de Artificiële
Taalverwerking Intelligentie
(Natural Language
Processing, NLP)
CHAT GPT
- Bilinguale prompt is mogelijk (vb. Engelse vraag en Nederlandstalige quote
=> Engelse output)
- Hallucinaties
Chat GPT maakt ook fouten, vaak door de prompt te volgen
Gaat mee in de zin van de gebruiker (vb. als er een fout staat in de
prompt wordt dat overgenomen)
GENERATIEVE AI
- Verschillende toepassen
Dialoogsystemen, tekstanalyse systemen, vraag-antwoordsystemen,
automatische vertaling
Tekst naar muziek, tekst naar spraak en spraak naar tekst, afbelding en
video generatie, programmacode generatie en begrip
Zero shot learning = we hebben het taalmodel geleerd om tekst te
voorspellen, maar tegelijkertijd heeft het ook andere zaken geleerd (vb.
automatisch vertalen of samenvatten = was niet voorspeld dat dit eruit
zou komen)
Generatieve AI is veel verbeterd (vb. ondertiteling YouTube video is nu
beter vertaald)
SPRAAK - TEKST (1)
- Spraaksynthese (met accent en natuurlijke intonatie)
https://www.readspeaker.com/
https://elevenlabs.io/
- Spraakherkenning
https://huggingface.co/spaces/sanchit-gandhi/whisper-large-v2
- Probleem: Realistische “Deep Fakes”
Cloning van stem + lipbewegingen + vertaling + spraaksynthese
https://www.heygen.com
Op basis van 2 minuten spraak (in het Nederlands) en beeld
Voor dialecten is dit nog niet heel accuraat
2
,Lessen van Walter Daelemans
Spraakherkenning + Vertaling
- Voorbeeld van de enorme vooruitgang in de taaltechnologie
https://www.youtube.com/watch?v=nmgFG7PUHfo
- Met de cc knop en de settings knop van YouTube kunnen filmpjes
automatisch ondertiteld worden (spraakherkenning) en automatisch
vertaald worden (machinevertaling) in “real time”
BEELD - TEKST
Tekst naar beeld
- Now with ChatGPT (Dall.e)
- Je geeft een prompt en dat wordt omgezet naar beeld
Beeld naar tekst
- Input: afbeelding
Beeldverwerking (objectherkenning)
Output: woorden van herkende objecten
Tekstverwerking (woorden combineren tot zinnen)
Output: beschrijving in tekst
- Je moet zo specifiek mogelijk zijn… het model DALL.E gaat de prompt
aanpassen
- Outpainting = in dezelfde stijl een afbelding vergroten
Tekst naar video
- OpenAI SORA
Nog niet beschikbaar
Er zijn hier ook hallucinaties te zien (vb. een hand of arm te veel)
TEKST – CODE
Vb. maak een tetrix spelletje, en het programma gaat zelf een programma
genereren
TEKST – MUZIEK
Moeilijk te controleren omdat je het met niets kan vergelijken.
SOCIAAL EN ECONOMISCH BELANG
VERTAALBEHOEFTEN
- EU: 24 officiële talen
Bulgaars, Deens, Duits, Engels, Estisch, Fins, Frans, Grieks, Hongaars,
Iers, Italiaans, Kroatisch, Lets, Litouws, Maltees, Nederlands, Pools,
Portugees, Roemeens, Sloveens, Slowaaks, Spaans, Tsjechisch, Zweeds
- E-commerce
Vertaling van websites, manuals, productbeschrijvingen => is
goedkoper
3
, Lessen van Walter Daelemans
SPRAAK + TAAL + VERTALING
- Meta:
no language left behind
SeamlessM4T
- Open Source
Beschikbaar voor onderzoek en dus beschikbaar online te vinden
- 200 languages
- Speech and Text
INFORMATIE-EXPLOSIE
- Omvang internet = 120 zettabyte
1 zettabyte= 1000 miljoen terabyte
- 70 terabyte per seconde groei
- Verdubbeling elke 2 jaar
https://www.live-counter.com/how-big-is-the-internet/
- 4.8 miljard gebruikers
TOEGANKELIJKHEID INFORMATIESYSTEMEN: MENS-COMPUTER
INTERFACE
- Automatisering helpdesk / informatiediensten / call centers
- Dialoog met auto, machines, …
- “The internet of things”
HULPMIDDELEN VOOR MENSEN MET BEPERKINGEN:
- visuele, auditieve of motorische problemen
“COMPANIONS”: HULP IN THUISZORG, KINDEROPPAS, …
- Een “aanwezigheid” die
Langere tijd bij iemand blijft
Die persoon leert kennen en er alles over weet en onthoudt
Kan converseren met emotie en persoonlijkheid
UNCANNY VALLEY
- Hypothese waarbij wordt voorspeld dat stimuli tot op een zeker punt
vertrouwder aanvoelen als ze er meer uitzien als mensen dan robots. Als
dit punt bereikt is, en stimuli een gevoel van vervreemding kunnen
veroorzaken.
“(SERIOUS) GAMING”
- “Gamification”: software met een ernstig doel (onderwijs, training)
gepresenteerd als een spel om motivatie, concentratie en
uithoudingsvermogen te verhogen
- NPCs (Non Player Characters) waarmee spontane gesprekken mogelijk zijn
(vb. Facade)
Narratief taalverwerking (Facade)
‘story beats”
Interactief drama en emoties
4
TAALTECHNOLOGIE
Staan voorbeeldvragen staan op het einde van elk hoofdstuk + lees cursus eerst
Er zijn lesopnames.
Examen
- Op papier
- Multiple choice (10) en 2/3 openvragen
- Studeren: je mag NotebookLM gebruikten!
Vragen?
HOOFDSTUK 1 – INLEIDING
DEFINITIE
Ontwikkeling van computermodellen met als doel
- Meer inzicht in de mogelijke representaties en processen die een rol spelen
in natuurlijke taal als systeem, in taalevolutie, in taalvariatie en in
taalverwerving en –verwerking
- De ontwikkeling van software die talige taken kan oplossen (automatische
vertaling, automatisch samenvatten, informatie-extractie, conversatie …)
COMPUTERTAALKUNDE IN DE TAAL- EN LETTERKUNDE?
- Moeilijk wetenschapsgebied
Inzicht in taal, gecombineerd met technische kennis
- Groot maatschappelijk en economisch belang
- Sterke groei als methode in de geesteswetenschap
Digital Humanities
- Sinds 2020: UAntwerpen: Internationale MA Digital Text Analysis
Programmeren in Python, statistiek, Machine Learning, tekst als data,
corpustaalkunde, natuurlijke taal verwerking, computationele
literatuurwetenschap, stage en thesis, …
https://www.uantwerpen.be/en/study/programmes/all-programmes/
digital- text-analysis/about-the-programme/
TAALTECHNOLOGIE
- Taal is het belangrijkste medium voor
Opslag van menselijke kennis
Communicatie
- Taal- en spraaktechnologie (TST) laat mensen toe
Gemakkelijker te communiceren met computers
Wereldwijd te communiceren in hun eigen taal
Vb. je praat in jouw gsm en een andere taal komt eruit
Kennis te halen uit spraak en tekst
Bijvoorbeeld: automatische samenvatting
Foutloos te schrijven
Groei van het aantal artikels die verschijnen => exponentiele groei
TERMINOLOGIE
1
,Lessen van Walter Daelemans
Computertaalkunde/ - Bestudeert taalverwerking met computermodellen
computerlinguïstiek - Taalkundige theorieën testen met
computermodellen
- Computationele psycholinguïstiek
Modelleren van menselijke taalverwerving en –
verwerking met computermodellen
Taal- en - Toepassingen van computertaalkunde
Spraaktechnologie - Nu ook in de eindtermen van secundair onderwijs
(TST, meestal gewoon (moderne talen)
Taaltechnologie,
language
engineering)
Natuurlijke - Computertaalkunde als onderdeel van de Artificiële
Taalverwerking Intelligentie
(Natural Language
Processing, NLP)
CHAT GPT
- Bilinguale prompt is mogelijk (vb. Engelse vraag en Nederlandstalige quote
=> Engelse output)
- Hallucinaties
Chat GPT maakt ook fouten, vaak door de prompt te volgen
Gaat mee in de zin van de gebruiker (vb. als er een fout staat in de
prompt wordt dat overgenomen)
GENERATIEVE AI
- Verschillende toepassen
Dialoogsystemen, tekstanalyse systemen, vraag-antwoordsystemen,
automatische vertaling
Tekst naar muziek, tekst naar spraak en spraak naar tekst, afbelding en
video generatie, programmacode generatie en begrip
Zero shot learning = we hebben het taalmodel geleerd om tekst te
voorspellen, maar tegelijkertijd heeft het ook andere zaken geleerd (vb.
automatisch vertalen of samenvatten = was niet voorspeld dat dit eruit
zou komen)
Generatieve AI is veel verbeterd (vb. ondertiteling YouTube video is nu
beter vertaald)
SPRAAK - TEKST (1)
- Spraaksynthese (met accent en natuurlijke intonatie)
https://www.readspeaker.com/
https://elevenlabs.io/
- Spraakherkenning
https://huggingface.co/spaces/sanchit-gandhi/whisper-large-v2
- Probleem: Realistische “Deep Fakes”
Cloning van stem + lipbewegingen + vertaling + spraaksynthese
https://www.heygen.com
Op basis van 2 minuten spraak (in het Nederlands) en beeld
Voor dialecten is dit nog niet heel accuraat
2
,Lessen van Walter Daelemans
Spraakherkenning + Vertaling
- Voorbeeld van de enorme vooruitgang in de taaltechnologie
https://www.youtube.com/watch?v=nmgFG7PUHfo
- Met de cc knop en de settings knop van YouTube kunnen filmpjes
automatisch ondertiteld worden (spraakherkenning) en automatisch
vertaald worden (machinevertaling) in “real time”
BEELD - TEKST
Tekst naar beeld
- Now with ChatGPT (Dall.e)
- Je geeft een prompt en dat wordt omgezet naar beeld
Beeld naar tekst
- Input: afbeelding
Beeldverwerking (objectherkenning)
Output: woorden van herkende objecten
Tekstverwerking (woorden combineren tot zinnen)
Output: beschrijving in tekst
- Je moet zo specifiek mogelijk zijn… het model DALL.E gaat de prompt
aanpassen
- Outpainting = in dezelfde stijl een afbelding vergroten
Tekst naar video
- OpenAI SORA
Nog niet beschikbaar
Er zijn hier ook hallucinaties te zien (vb. een hand of arm te veel)
TEKST – CODE
Vb. maak een tetrix spelletje, en het programma gaat zelf een programma
genereren
TEKST – MUZIEK
Moeilijk te controleren omdat je het met niets kan vergelijken.
SOCIAAL EN ECONOMISCH BELANG
VERTAALBEHOEFTEN
- EU: 24 officiële talen
Bulgaars, Deens, Duits, Engels, Estisch, Fins, Frans, Grieks, Hongaars,
Iers, Italiaans, Kroatisch, Lets, Litouws, Maltees, Nederlands, Pools,
Portugees, Roemeens, Sloveens, Slowaaks, Spaans, Tsjechisch, Zweeds
- E-commerce
Vertaling van websites, manuals, productbeschrijvingen => is
goedkoper
3
, Lessen van Walter Daelemans
SPRAAK + TAAL + VERTALING
- Meta:
no language left behind
SeamlessM4T
- Open Source
Beschikbaar voor onderzoek en dus beschikbaar online te vinden
- 200 languages
- Speech and Text
INFORMATIE-EXPLOSIE
- Omvang internet = 120 zettabyte
1 zettabyte= 1000 miljoen terabyte
- 70 terabyte per seconde groei
- Verdubbeling elke 2 jaar
https://www.live-counter.com/how-big-is-the-internet/
- 4.8 miljard gebruikers
TOEGANKELIJKHEID INFORMATIESYSTEMEN: MENS-COMPUTER
INTERFACE
- Automatisering helpdesk / informatiediensten / call centers
- Dialoog met auto, machines, …
- “The internet of things”
HULPMIDDELEN VOOR MENSEN MET BEPERKINGEN:
- visuele, auditieve of motorische problemen
“COMPANIONS”: HULP IN THUISZORG, KINDEROPPAS, …
- Een “aanwezigheid” die
Langere tijd bij iemand blijft
Die persoon leert kennen en er alles over weet en onthoudt
Kan converseren met emotie en persoonlijkheid
UNCANNY VALLEY
- Hypothese waarbij wordt voorspeld dat stimuli tot op een zeker punt
vertrouwder aanvoelen als ze er meer uitzien als mensen dan robots. Als
dit punt bereikt is, en stimuli een gevoel van vervreemding kunnen
veroorzaken.
“(SERIOUS) GAMING”
- “Gamification”: software met een ernstig doel (onderwijs, training)
gepresenteerd als een spel om motivatie, concentratie en
uithoudingsvermogen te verhogen
- NPCs (Non Player Characters) waarmee spontane gesprekken mogelijk zijn
(vb. Facade)
Narratief taalverwerking (Facade)
‘story beats”
Interactief drama en emoties
4