본문으로 바로가기

Unified Notation for Episodic and Continuing Tasks

지난 시간에는 continuing task와 episodic task에 대한 얘기가 있었다. 이를 수식적으로 동시에 표현할 수 있는 식을 얘기해볼 예정이다. 어떤 episode $i$에서 $t$ 시점에서 상태를 $S_{t, i}$라 하자. 그런데 굳이 episode를 구별할 필요없이 동일한 상태, 보상 등을 가질 것이므로 간단히 $S_t$라 나타낸다. 이제 episodic task의 return과

continuing task의 return을

같이 표현할 수 있는 수식을 나타낼 것이다. 어떻게 하냐면 $S_0$에서 부터 시작한다고 하고 종료 상태가 3($T=3$)이라 할 때 다음과 같이 하는 것이다.

상태 3이 되면 그 이후로는 계속 자신 상태로 돌아오면서 보상을 0으로 받는 것이다. $+1, +1, +1, 0, 0, 0, ...$ 이렇게 계속 더하면 무한히 더하는 것이지만 T=3을 더하는 것과 동일하다. 거기에 $\gamma$ 까지 같이 사용해서 다음과 같이 표현할 수 있다.

$T=\infty$ 하거나 $\gamma < 1$하다면 continuing task가 될 것이고, $T>0$ 이고 $\gamma = 1$이라면 episodic task가 될 것이다.

다음 시간에는

사실 이번 것은 다룰 필요가 있나 싶었지만...(에이 몰랑) 다음 시간에는 강화학습에서 가장 중요하다 할 수 있는 정책(policy)과 가치 함수(Value Function)에 대해 다룰 것이다.