강화학습 Sutton [Ch3 Finite Markov Decision Processes] #3 Returns and Episodes
Returns and Episodes 이전 시간에는 에이전트의 목표는 보상의 합을 최대화 한다고 했었다. 정확하게 수식으로 표현하면 어떻게 나타낼 수 있을까? 만약 어떤 시점 $t$에서 보상의 합을 최대화하고 싶다고 할 때, 앞으로 받을 보상을 $R_{t+1}$, $R{t+2}$, ..., 나타낼 수 있으며 이들의 합을 expected return($G_t$)라고 정의한다. 이 때, T는 마지막 step이며, 게임이 끝난다거나 어떤 목표를 이루었거나 했을 때 종료되는 지점을 말한다. 이렇게 종료 상태(terminal state)가 있어서, 시작부터 종료까지를 episode라 말하며, 만약 끝까지 가서 종료가 되면 다음 episode가 새롭게 진행된다. 당연히 이전 episode와는 독립적이고, 새롭게 시..