강화학습 Sutton [Ch5 Dynamic Programming] #9 *Per-decision Importance Sampling
Per-decision Importance Sampling return을 보상의 합으로 보고 off-policy importance sampling을 하면서 생기는 분산을 줄이는 또다른 방법이 있다. 이전 ordinary와 weighted importance sampling을 다시 떠올려보자. 여기서 $V$를 estimate 하기 때문에 estimator라고 부른다. 잘 보면 두 estimator 분자 부분은 동일하다. 그런데 여기서 첫 번째 항 $\rho_{t:T-1}R_{t+1}$을 풀어보면 다음과 같다. 이전 절에서도 그랬듯 실제로는 $ \frac{\pi(A_t|S_t)}{b(A_t|S_t)} $ 항과 $R_{t+1}$이 관련이 높고 나머지는 관련이 없다고 볼 수 있다. 왜냐하면 $R_{t+1}$ ..