100% de satisfacción garantizada Inmediatamente disponible después del pago Tanto en línea como en PDF No estas atado a nada 4.2 TrustPilot
logo-home
Examen

EEE 448/548 - Reinforcement Learning & Dynamic Programming Solutions to Final Exam

Puntuación
-
Vendido
-
Páginas
4
Grado
A+
Subido en
25-09-2025
Escrito en
2025/2026

EEE 448/548 - Reinforcement Learning & Dynamic Programming Solutions to Final Exam Problem 1. (30pt) Consider the following infinite-horizon Markov decision process with the discount factor γ = 1 and initialized at state s1: At each step, the agent stays in state s1 and receives reward 1 if he/she takes action a1, and receives reward 0 and terminates the process otherwise. We focus on (Markov) stationary policy parametrized by a single parameter θ as follows πθ(a1 | s1) = θ and πθ(a2 | s1) = 1 − θ. Note that there is no action in state sF as the process ended. Compute the policy gradient of the expected return J(θ) = E[R(τ )] with respect to the parameter θ, i.e., dJ(θ) dθ , where R(τ ) = P h rh is the total reward of the trajectory τ and the expectation is taken with respect to the randomness induced by the policy πθ. Hint: P∞ k=1 kαk−1 = P∞ k=1 d dαα k = d dα P∞ k=1 α k . Solution: Feasible n-length trajectories are τ = {s1a1, 1, . . . , s1, a1, 1, s1, a2, 0} with probability θ n−1 (1 − θ) and reward n − 1 (10pt). Therefore, we have (10pt) E[R(τ )] = X∞ n=1 (n − 1)θ n−1 (1 − θ) = X∞ n=1 nθn (1 − θ). Then, the gradient is given by (10pt)

Mostrar más Leer menos
Institución
Revision
Grado
Revision








Ups! No podemos cargar tu documento ahora. Inténtalo de nuevo o contacta con soporte.

Escuela, estudio y materia

Institución
Revision
Grado
Revision

Información del documento

Subido en
25 de septiembre de 2025
Número de páginas
4
Escrito en
2025/2026
Tipo
Examen
Contiene
Preguntas y respuestas

Temas

Vista previa del contenido

Bilkent University Fall 2023

EEE 448/548 - Reinforcement Learning & Dynamic Programming

Solutions to Final Exam
Problem 1. (30pt) Consider the following infinite-horizon Markov decision process with the
discount factor γ = 1 and initialized at state s1 : At each step, the agent stays in state s1 and




receives reward 1 if he/she takes action a1 , and receives reward 0 and terminates the process
otherwise. We focus on (Markov) stationary policy parametrized by a single parameter θ as
follows
πθ (a1 | s1 ) = θ and πθ (a2 | s1 ) = 1 − θ.
Note that there is no action in state sF as the process ended.
Compute the policy gradient of the expected return J(θ) = E[R(τ )] with respect to the
parameter θ, i.e., dJ(θ)
P
dθ , where R(τ ) = h rh is the total reward of the trajectory τ and the
expectation is taken with respect to the randomness induced by the policy πθ .
Hint: ∞
P k−1 =
P∞ d k d P∞ k
k=1 kα k=1 dα α = dα k=1 α .



Solution: Feasible n-length trajectories are τ = {s1 a1 , 1, . . . , s1 , a1 , 1, s1 , a2 , 0} with probability
θn−1 (1 − θ) and reward n − 1 (10pt). Therefore, we have (10pt)

X ∞
X
E[R(τ )] = (n − 1)θn−1 (1 − θ) = nθn (1 − θ).
n=1 n=1

Then, the gradient is given by (10pt)

d d X n
E[R(τ )] = nθ (1 − θ)
dθ dθ
n=1

!
d X
= θ(1 − θ) nθn−1

n=1

!
d d X n
= θ(1 − θ) θ
dθ dθ
n=1
 
d d θ
= θ(1 − θ)
dθ dθ 1 − θ
 
d (1 − θ) + θ
= θ(1 − θ)
dθ (1 − θ)2
d θ
=
dθ 1 − θ
1
= .
(1 − θ)2


1 09-25-2025 13:17:22 GMT -05:00
This study source was downloaded by 100000899606396 from CourseHero.com on


https://www.coursehero.com/file/249728220/Fall-2023-5pdf/
$7.99
Accede al documento completo:

100% de satisfacción garantizada
Inmediatamente disponible después del pago
Tanto en línea como en PDF
No estas atado a nada

Conoce al vendedor

Seller avatar
Los indicadores de reputación están sujetos a la cantidad de artículos vendidos por una tarifa y las reseñas que ha recibido por esos documentos. Hay tres niveles: Bronce, Plata y Oro. Cuanto mayor reputación, más podrás confiar en la calidad del trabajo del vendedor.
Abbyy01 Exam Questions
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
91
Miembro desde
3 año
Número de seguidores
33
Documentos
1121
Última venta
4 semanas hace

3.5

13 reseñas

5
5
4
2
3
3
2
1
1
2

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes