Samenvatting: zelfstudie media en
digitale samenleving
Zelfstudie 1: AI
1. video over: ‘ LLM’s & transformers’
1. Wat is GPT?
● Generative: model genereert nieuwe tekst.
● Pretrained: eerst getraind op gigantische hoeveelheden data.
● Transformer: type neurale netwerkarchitectuur dat gebruikmaakt van attention.
2. Transformer Architectuur: Overzicht
Een transformer verwerkt tekst in 5 grote stappen:
1) Tokenisatie
● Tekst → kleine stukjes (“tokens”)
● Vaak subwoorden (bijv. "trans", "form", "er")
● Voordeel: kan alle woorden verwerken, ook nieuwe of samengestelde.
2) Embeddings
● Elk token wordt een vector in een hoge-dimensionale ruimte.
● Woorden met gelijkaardige betekenis liggen dicht bij elkaar.
Embeddings = betekenis representatie van taal.
3) Positional Encoding
● Transformers hebben geen volgorde-inzicht zoals RNNs.
● Daarom wordt een codering signaal toegevoegd dat vertelt waar een token in de zin
staat.
4) Attention Mechanisme (belangrijkste!)
● De kern van de transformer.
● Attention laat het model bepalen welke andere tokens relevant zijn voor het huidige
token.
○ Voorbeeld: bij het woord "it" kijkt het model naar welk woord "it" waarschijnlijk
verwijst
● Self-attention: elke token “kijkt” naar alle andere tokens
, ● Output is een gewogen som van alle relevante tokens.
Waarom sterk?
● Kan lange-afstandrelaties leren (“De kat die gisteren ontsnapte, zat in de boom”).
● Verwerkt tokens parallel → zeer efficiënt.
5) Feed-forward (MLP) lagen
● Per token wordt de representatie verder getransformeerd.
● Maakt het model niet-lineair en dus krachtiger.
3. Hoe genereert een transformer tekst?
Stap voor stap:
1. Model krijgt inputtokens.
2. Attention + MLP verwerken de context.
3. Voor het volgende token worden scores berekend (logits).
4. Softmax → omzetting in waarschijnlijkheden.
5. Sampling: model kiest een token volgens die kansverdeling.
6. Token wordt toegevoegd aan de zin → model herhaalt.
Dit is autoregressief: het model voorspelt steeds één token per keer.
4. Training van Transformers
● Modellen zoals GPT-3 hebben miljarden parameters.
● Ze worden getraind via backpropagation op enorme datasets (boeken, websites,
code, …).
● Doel tijdens training: voorspel het volgende token in allerlei contexten.
● Door schaal + juiste architectuur leren modellen semantiek, grammatica, stijl, logica.
5. Belangrijke Concepten uit de video
Softmax & Temperature
● Softmax maakt van scores kansen.
Temperature:
Laag (bv. 0.2) → veilig, voorspelbaar
Hoog (bv. 1.2) → creatief, chaotischer.
Contextlengte
● Het model kan maar een beperkt aantal tokens tegelijk in de context houden.
● Hoe meer context, hoe beter het model verbanden kan leggen over lange teksten.
, Waarom Transformers revolutionair zijn
● Geen sequentiële verwerking (zoals RNN/LSTM) → snelle training.
● Lange-afstand correlaties → begrijpt context beter.
● Schaalbaar → prestaties worden beter met meer data + parameters.
6. Samenvatting in 10 examenzinnen
1. Een transformer verwerkt tekst via tokenisatie, embeddings, positional encoding,
attention en feed-forward lagen.
2. Self-attention maakt het mogelijk om alle tokens tegelijk te vergelijken qua relevantie.
3. Embeddings plaatsen woorden in een hoge-dimensionale semantische ruimte.
4. GPT-modellen zijn autoregressieve transformermodellen.
5. Het model voorspelt telkens het volgende token op basis van kansverdeling.
6. De softmaxfunctie zet logits om in voorspeltkansen voor tokens.
7. Temperature bepaalt hoe creatief of deterministisch tokenselectie verloopt.
8. Transformers zijn zeer schaalbaar en trainen extreem efficiënt door parallelle
verwerking.
9. De kracht van transformers komt voort uit brede contextverwerking via attention.
10. Grote LLMs generaliseren goed dankzij veel data en miljarden parameters.
digitale samenleving
Zelfstudie 1: AI
1. video over: ‘ LLM’s & transformers’
1. Wat is GPT?
● Generative: model genereert nieuwe tekst.
● Pretrained: eerst getraind op gigantische hoeveelheden data.
● Transformer: type neurale netwerkarchitectuur dat gebruikmaakt van attention.
2. Transformer Architectuur: Overzicht
Een transformer verwerkt tekst in 5 grote stappen:
1) Tokenisatie
● Tekst → kleine stukjes (“tokens”)
● Vaak subwoorden (bijv. "trans", "form", "er")
● Voordeel: kan alle woorden verwerken, ook nieuwe of samengestelde.
2) Embeddings
● Elk token wordt een vector in een hoge-dimensionale ruimte.
● Woorden met gelijkaardige betekenis liggen dicht bij elkaar.
Embeddings = betekenis representatie van taal.
3) Positional Encoding
● Transformers hebben geen volgorde-inzicht zoals RNNs.
● Daarom wordt een codering signaal toegevoegd dat vertelt waar een token in de zin
staat.
4) Attention Mechanisme (belangrijkste!)
● De kern van de transformer.
● Attention laat het model bepalen welke andere tokens relevant zijn voor het huidige
token.
○ Voorbeeld: bij het woord "it" kijkt het model naar welk woord "it" waarschijnlijk
verwijst
● Self-attention: elke token “kijkt” naar alle andere tokens
, ● Output is een gewogen som van alle relevante tokens.
Waarom sterk?
● Kan lange-afstandrelaties leren (“De kat die gisteren ontsnapte, zat in de boom”).
● Verwerkt tokens parallel → zeer efficiënt.
5) Feed-forward (MLP) lagen
● Per token wordt de representatie verder getransformeerd.
● Maakt het model niet-lineair en dus krachtiger.
3. Hoe genereert een transformer tekst?
Stap voor stap:
1. Model krijgt inputtokens.
2. Attention + MLP verwerken de context.
3. Voor het volgende token worden scores berekend (logits).
4. Softmax → omzetting in waarschijnlijkheden.
5. Sampling: model kiest een token volgens die kansverdeling.
6. Token wordt toegevoegd aan de zin → model herhaalt.
Dit is autoregressief: het model voorspelt steeds één token per keer.
4. Training van Transformers
● Modellen zoals GPT-3 hebben miljarden parameters.
● Ze worden getraind via backpropagation op enorme datasets (boeken, websites,
code, …).
● Doel tijdens training: voorspel het volgende token in allerlei contexten.
● Door schaal + juiste architectuur leren modellen semantiek, grammatica, stijl, logica.
5. Belangrijke Concepten uit de video
Softmax & Temperature
● Softmax maakt van scores kansen.
Temperature:
Laag (bv. 0.2) → veilig, voorspelbaar
Hoog (bv. 1.2) → creatief, chaotischer.
Contextlengte
● Het model kan maar een beperkt aantal tokens tegelijk in de context houden.
● Hoe meer context, hoe beter het model verbanden kan leggen over lange teksten.
, Waarom Transformers revolutionair zijn
● Geen sequentiële verwerking (zoals RNN/LSTM) → snelle training.
● Lange-afstand correlaties → begrijpt context beter.
● Schaalbaar → prestaties worden beter met meer data + parameters.
6. Samenvatting in 10 examenzinnen
1. Een transformer verwerkt tekst via tokenisatie, embeddings, positional encoding,
attention en feed-forward lagen.
2. Self-attention maakt het mogelijk om alle tokens tegelijk te vergelijken qua relevantie.
3. Embeddings plaatsen woorden in een hoge-dimensionale semantische ruimte.
4. GPT-modellen zijn autoregressieve transformermodellen.
5. Het model voorspelt telkens het volgende token op basis van kansverdeling.
6. De softmaxfunctie zet logits om in voorspeltkansen voor tokens.
7. Temperature bepaalt hoe creatief of deterministisch tokenselectie verloopt.
8. Transformers zijn zeer schaalbaar en trainen extreem efficiënt door parallelle
verwerking.
9. De kracht van transformers komt voort uit brede contextverwerking via attention.
10. Grote LLMs generaliseren goed dankzij veel data en miljarden parameters.