100% de satisfacción garantizada Inmediatamente disponible después del pago Tanto en línea como en PDF No estas atado a nada 4.2 TrustPilot
logo-home
Examen

COS4861 Assignment 3 |EXPERTLY DETAILED ANSWERS|- DUE 10 September 2025

Puntuación
-
Vendido
-
Páginas
26
Grado
A+
Subido en
21-08-2025
Escrito en
2025/2026

COS4861 Assignment 3 |EXPERTLY DETAILED ANSWERS|- DUE 10 September 2025 Note 1: This assignment is designed to make you understand the fundamentals behind corpus-based Natural Language Processing (NLP) and various techniques applied for pre processing, analysing, and generating insights from text such as word would, tokenization, and creating encoding systems. This is in no way a definitive list of examples, but the basic components you need to get started.

Mostrar más Leer menos
Institución
Grado









Ups! No podemos cargar tu documento ahora. Inténtalo de nuevo o contacta con soporte.

Libro relacionado

Escuela, estudio y materia

Institución
Grado

Información del documento

Subido en
21 de agosto de 2025
Número de páginas
26
Escrito en
2025/2026
Tipo
Examen
Contiene
Preguntas y respuestas

Temas

Vista previa del contenido

COS4861
Assignment 3
DUE 10 September 2025

, COS4861 ASSIGNMENT 3 2025

WORKING TOWARDS ENCODING SYSTEMS IN NLP

DUE: 10 SEPTEMBER 2025 MARKS: 65




Question 1 — Theory (12)

1.1) What is a corpus, and how does it differ from other data types? (2)

A corpus is a large, curated collection of natural-language text or speech transcripts
organised for linguistic or NLP analysis. Unlike generic datasets e.g., numeric sensor
tables, a corpus preserves linguistic structure, tokens, sentences, documents, genres,
meta-data such as source/date/register so that we can model language phenomena like
vocabulary, syntax and usage patterns. In this assignment we were given a small
English text corpus about smoothing algorithms to use for all tasks.

1.2) Technical term for splitting a corpus into paragraphs/sentences/words (1)

This process is called tokenization (word tokenization) and sentence segmentation
(sentence boundary detection). Together these are standard text preprocessing steps.

1.3) Define N-grams and give peer-reviewed references (2)

An N-gram is a contiguous sequence of 𝑁 items (characters or words) from a text; N-
𝑖−1
gram language models estimate 𝑃(𝑤𝑖 ∣ 𝑤 𝑖−𝑁+1 ) from counts. Foundational peer-
reviewed sources include Brown et al. (1992), who develop class-based N-gram models
for predicting the next word, and later comparative studies showing their centrality in
language modelling.

1.4) Data sparseness in N-gram models; what is smoothing? Name two
algorithms (7)

Because natural language is combinatorially large, many plausible N-grams are unseen
in training. Maximum-likelihood estimates (MLE) assign probability zero to unseen
$3.25
Accede al documento completo:

100% de satisfacción garantizada
Inmediatamente disponible después del pago
Tanto en línea como en PDF
No estas atado a nada

Conoce al vendedor

Seller avatar
Los indicadores de reputación están sujetos a la cantidad de artículos vendidos por una tarifa y las reseñas que ha recibido por esos documentos. Hay tres niveles: Bronce, Plata y Oro. Cuanto mayor reputación, más podrás confiar en la calidad del trabajo del vendedor.
FocusZone University of South Africa (Unisa)
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
383
Miembro desde
7 meses
Número de seguidores
2
Documentos
506
Última venta
6 horas hace
Focus Zone

On this page you will find Uploads and Package Deals by the seller FOCUS ZONE.

4.3

57 reseñas

5
33
4
11
3
11
2
0
1
2

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes