강화학습 Sutton [Ch3 Finite Markov Decision Processes] #4 Unified Notation for Episodic and Continuing Tasks
Unified Notation for Episodic and Continuing Tasks 지난 시간에는 continuing task와 episodic task에 대한 얘기가 있었다. 이를 수식적으로 동시에 표현할 수 있는 식을 얘기해볼 예정이다. 어떤 episode $i$에서 $t$ 시점에서 상태를 $S_{t, i}$라 하자. 그런데 굳이 episode를 구별할 필요없이 동일한 상태, 보상 등을 가질 것이므로 간단히 $S_t$라 나타낸다. 이제 episodic task의 return과 continuing task의 return을 같이 표현할 수 있는 수식을 나타낼 것이다. 어떻게 하냐면 $S_0$에서 부터 시작한다고 하고 종료 상태가 3($T=3$)이라 할 때 다음과 같이 하는 것이다. 상태 3이 되면..