Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien 4.2 TrustPilot
logo-home
Examen

COS4861 Assignment 3 2025 - Due 10 September 2025 | ANSWERS

Note
-
Vendu
-
Pages
21
Grade
A+
Publié le
03-09-2025
Écrit en
2025/2026

Natural Language Processing - COS4861 Assignment 3 2025 - Due 10 September 2025; 100 % TRUSTED workings, Expert Solved, Explanations and Solutions. For assistance call or W.h.a.t.s.a.p.p us on ...(.+.2.5.4.7.7.9.5.4.0.1.3.2)........... Question 1 [12 points] - Theory 1) What is a corpus ? and how does it differ from other data types ? (2) 2) What is the technical term for splitting a corpus into different linguistic units such as paragraphs, sentences, and words in NLP (1) 3) Define N-grams and provide references from peer-reviewed articles (2) 4) Describe the problem of data sparseness with regards to an N-grarn model. Explain the term smoothing and name two smoothing algorithms that can be used to get better estimates for low or zero frequency counts. (7) Question 2 [13 points] – Applications and code

Montrer plus Lire moins
Établissement
Cours









Oups ! Impossible de charger votre document. Réessayez ou contactez le support.

Livre connecté

École, étude et sujet

Établissement
Cours

Infos sur le Document

Publié le
3 septembre 2025
Nombre de pages
21
Écrit en
2025/2026
Type
Examen
Contient
Questions et réponses

Sujets

Aperçu du contenu

COS4861
ASSIGNMENT 3 2025

UNIQUE NO.
DUE DATE: 10 SEPTEMBER 2025

, Natural Language Processing


Question 1 – Theory (12)

1) What is a corpus, and how does it differ from other data types? (2)

A corpus is a large, structured collection of authentic texts (written, spoken, or
transcribed) compiled to support empirical language study and NLP modeling. Unlike
generic datasets (e.g., numeric sensor tables), corpora preserve linguistic form and
sequence (tokens, order, sentence boundaries, discourse) and are often annotated
(e.g., POS tags), enabling probabilistic language models and linguistic analysis
(Jurafsky & Martin, 2023; McEnery & Hardie, 2012).

2) Technical term for splitting a corpus into linguistic units (1)

Tokenization (and, more broadly, segmentation) — e.g., sentence segmentation
and word tokenization (Manning et al., 2008; Jurafsky & Martin, 2023).

3) Define N-grams with peer-reviewed references (2)

An N-gram is a contiguous sequence of N items (characters or words) from text. In
word N-grams, items are words; in character N-grams, items are characters. N-gram
language models approximate 𝑃(𝑤𝑡 ∣ 𝑤 𝑡−(𝑁−1) , … , 𝑤𝑡−1 ) using observed counts in a
corpus (Shannon, 1948; Chen & Goodman, 2003; Kneser & Ney, 1995).

4) Data sparseness in N-gram models; smoothing; name two algorithms (7)

Data sparseness arises because even large corpora do not observe many possible N-
grams, especially for larger N. Raw Maximum Likelihood Estimation (MLE) assigns zero
probability to unseen N-grams, making models brittle.

Smoothing redistributes some probability mass from seen to unseen events to avoid
zeros and improve generalization. Two well-established algorithms are:
€2,42
Accéder à l'intégralité du document:

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Faites connaissance avec le vendeur

Seller avatar
Les scores de réputation sont basés sur le nombre de documents qu'un vendeur a vendus contre paiement ainsi que sur les avis qu'il a reçu pour ces documents. Il y a trois niveaux: Bronze, Argent et Or. Plus la réputation est bonne, plus vous pouvez faire confiance sur la qualité du travail des vendeurs.
LIBRARYpro University of South Africa (Unisa)
S'abonner Vous devez être connecté afin de suivre les étudiants ou les cours
Vendu
10519
Membre depuis
2 année
Nombre de followers
4904
Documents
4814
Dernière vente
18 heures de cela
LIBRARY

On this page, you find all documents, Package Deals, and Flashcards offered by seller LIBRARYpro (LIBRARY). Knowledge is Power. #You already got my attention!

3,7

1457 revues

5
683
4
235
3
243
2
78
1
218

Récemment consulté par vous

Pourquoi les étudiants choisissent Stuvia

Créé par d'autres étudiants, vérifié par les avis

Une qualité sur laquelle compter : rédigé par des étudiants qui ont réussi et évalué par d'autres qui ont utilisé ce document.

Le document ne convient pas ? Choisis un autre document

Aucun souci ! Tu peux sélectionner directement un autre document qui correspond mieux à ce que tu cherches.

Paye comme tu veux, apprends aussitôt

Aucun abonnement, aucun engagement. Paye selon tes habitudes par carte de crédit et télécharge ton document PDF instantanément.

Student with book image

“Acheté, téléchargé et réussi. C'est aussi simple que ça.”

Alisha Student

Foire aux questions