100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
Tentamen (uitwerkingen)

COS4861 Assignment 3 (COMPLETE ANSWERS) 2025 - DUE 10 September 2025; 100% correct solutions and explanations.

Beoordeling
-
Verkocht
-
Pagina's
20
Cijfer
A+
Geüpload op
06-09-2025
Geschreven in
2025/2026

COS4861 Assignment 3 (COMPLETE ANSWERS) 2025 - DUE 10 September 2025; 100% correct solutions and explanations.

Instelling
Vak










Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Gekoppeld boek

Geschreven voor

Instelling
Vak

Documentinformatie

Geüpload op
6 september 2025
Aantal pagina's
20
Geschreven in
2025/2026
Type
Tentamen (uitwerkingen)
Bevat
Vragen en antwoorden

Onderwerpen

Voorbeeld van de inhoud

COS4861 Assignment 3 (COMPLETE ANSWERS) 2025 - DUE 10
September 2025; 100% correct solutions and explanations

, Working towards encoding systems in NLP.

Due date: 10 September 2025
Year: 2025
You will learn how to:
- define various encoding techniques (N-grams, ), and smoothing algorithms - build
tokenizers, and N-grams models,

Note 1: This assignment is designed to make you understand the fundamentals behind
corpus-based Natural Language Processing (NLP) and various techniques applied for
preprocessing, analysing, and generating insights from text such as word would,
tokenization, and creating encoding systems. This is in no way a definitive list of examples,
but the basic components you need to get started.


Question 1 — Theory (12 points)
1) What is a corpus and how does it differ from other
data types? (2)
A corpus is a structured body (collection) of natural
language text used for linguistic or NLP analysis. A
corpus is explicitly assembled to represent language use
(e.g., news text, scientific articles, transcribed speech)
and typically annotated or preprocessed for analysis. It
differs from other data types (images, tabular sensor
data, audio without transcription) in that its primary unit
is textual linguistic data (tokens, sentences, documents)
and analyses focus on linguistic phenomena (syntax,
semantics, frequencies, collocations, etc.).
2) Technical term for splitting a corpus into
paragraphs, sentences, words in NLP (1)
That process is called tokenization (with sentence
segmentation / sentence boundary detection and
word/token segmentation as sub-tasks).

, 3) Define N-grams and provide references from peer-
reviewed articles (2)
An n-gram is a contiguous sequence of n items
(characters or words) from text. In language modeling,
an n-gram model predicts the probability of a token
given the previous n−1 tokens (e.g., a bigram uses 1
previous token, a trigram uses 2). Peer-reviewed /
authoritative references that define and use n-grams:
Jurafsky & Martin (N-gram language model introduction)
and review material in ScienceDirect and SAGE journals
on n-gram models and text mining. Stanford
UniversityScienceDirectSAGE Journals
4) Data sparseness in N-grams, define smoothing
and name two smoothing algorithms (7)
 Data sparseness problem (for N-gram models): As

n grows, the number of possible n-grams explodes
(vocabulary^n). Many valid n-grams will have zero
or very low counts in any finite corpus. This leads to
zero-probability estimates under straightforward
Maximum Likelihood Estimation (MLE), causing a
model to assign zero probability to plausible events
(bad generalization).
 Smoothing (definition): Smoothing refers to

techniques that adjust observed frequency counts
or probabilities so that unseen or rare n-grams
receive non-zero probability mass and so that
probability mass is redistributed from seen to
unseen events in a principled way. Smoothing

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
ScholarsCompas CHARMBERLAIN SCHOOL OF NURSING
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
124
Lid sinds
1 jaar
Aantal volgers
0
Documenten
232
Laatst verkocht
3 weken geleden

4.0

25 beoordelingen

5
13
4
4
3
4
2
2
1
2

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen