Escrito por estudiantes que aprobaron Inmediatamente disponible después del pago Leer en línea o como PDF ¿Documento equivocado? Cámbialo gratis 4,6 TrustPilot
logo-home
Examen

CS7643 LAST QUIZ QUESTIONS WITH DETAILED VERIFIED ANSWERS (100% CORRECT ANSWERS) /ALREADY GRADED A+

Puntuación
-
Vendido
-
Páginas
10
Grado
A+
Subido en
24-04-2026
Escrito en
2025/2026

CS7643 LAST QUIZ QUESTIONS WITH DETAILED VERIFIED ANSWERS (100% CORRECT ANSWERS) /ALREADY GRADED A+

Institución
CS7643
Grado
CS7643

Vista previa del contenido

CS7643 LAST QUIZ QUESTIONS WITH DETAILED VERIFIED
ANSWERS (100% CORRECT ANSWERS) /ALREADY
GRADED A+


Reinforcement learning - ANSWER-Sequential decision making in an environment with evaluative
feedback



Environment: may be unknown, non-linear, stochastic and complex

Agent: learns a policy to map states of the environments to actions

- seeks to maximize long-term reward



RL: Evaluative Feedback - ANSWER-- Pick an action, receive a reward

- No supervision for what the correct action is or would have been (unlike supervised learning)



RL: Sequential Decisions - ANSWER-- Plan and execution actions over a sequence of states

- Reward may be delayed, requiring optimization of future rewards (long-term planning)



Signature Challenges in RL - ANSWER-Evaluative Feedback: Need trial and error to find the right action



Delayed Feedback: Actions may not lead to immediate reward



Non-stationarity: Data distribution of visited states changes when the policy changes



Fleeting Nature: of online data (may only see data once)



MDP - ANSWER-Framework underlying RL

S: Set of states

A: Set of actions

, R: Distribution of Rewards

T: Transition probabiliity

y: Discount property



Markov Property: Current state completely characterizes state of the environment



RL: Equations relating optimal quantities - ANSWER-1. V*(S) = max_a(Q*(s, a)

2. PI*(s) = argmax_a(Q*(s, a)



V*(S) - ANSWER-max_a (sum_(s') { p(s'|s, a) [r(s, a) + yV*(s')] } )



Q*(s,a) - ANSWER-sum_(s') { p(s'|s, a) [r(s, a) + y*max_(a'){Q*(s', a') ] }



Value Iteration - ANSWER-v_(i+1) = max_a (sum_(s') { p(s'|s, a) [r(s, a) + yV_(i)(s')] } )

- repeat until convergence

- Time complexity per iteration O(|S^2| |A|)



Policy Iteration - ANSWER-Policy Evaluation: Compute V(pi)

Policy Refinement: Greedily change action as per V(Pi) at next states



Why do Policy Iteration: PI_i often converges to PI* sooner than V_PI to V_PI*

- thus requires few iterations



Deep Q-Learning - ANSWER-- Q(s, a; w, b) = w_a^t * s + b_a



MSE Loss := (Q_new(s, a) - (r + y*max_a(Q_old(s', a)))^2



- using a single Q function makes loss function unstable

--> use two Q-tables (NNs)

- Freeze Q_old and update Q_new

Escuela, estudio y materia

Institución
CS7643
Grado
CS7643

Información del documento

Subido en
24 de abril de 2026
Número de páginas
10
Escrito en
2025/2026
Tipo
Examen
Contiene
Preguntas y respuestas

Temas

$17.99
Accede al documento completo:

¿Documento equivocado? Cámbialo gratis Dentro de los 14 días posteriores a la compra y antes de descargarlo, puedes elegir otro documento. Puedes gastar el importe de nuevo.
Escrito por estudiantes que aprobaron
Inmediatamente disponible después del pago
Leer en línea o como PDF

Conoce al vendedor

Seller avatar
Los indicadores de reputación están sujetos a la cantidad de artículos vendidos por una tarifa y las reseñas que ha recibido por esos documentos. Hay tres niveles: Bronce, Plata y Oro. Cuanto mayor reputación, más podrás confiar en la calidad del trabajo del vendedor.
DoctorDee Teachme2-tutor
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
31
Miembro desde
2 año
Número de seguidores
7
Documentos
4934
Última venta
2 días hace
Hi wayne1111

3.5

6 reseñas

5
3
4
0
3
1
2
1
1
1

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes