Per-decision Importance Sampling
return을 보상의 합으로 보고 off-policy importance sampling을 하면서 생기는 분산을 줄이는 또다른 방법이 있다. 이전 ordinary와 weighted importance sampling을 다시 떠올려보자.
여기서 $V$를 estimate 하기 때문에 estimator라고 부른다. 잘 보면 두 estimator 분자 부분은 동일하다.
그런데 여기서 첫 번째 항 $\rho_{t:T-1}R_{t+1}$을 풀어보면 다음과 같다.
이전 절에서도 그랬듯 실제로는 $ \frac{\pi(A_t|S_t)}{b(A_t|S_t)} $ 항과 $R_{t+1}$이 관련이 높고 나머지는 관련이 없다고 볼 수 있다. 왜냐하면 $R_{t+1}$ 보상을 받고 나서야 일어나는 정책들이기 때문이기도 하고, 두 항을 제외한 나머지의 기댓값은 1이 나온다.
그렇다면 결국 나머지 요소는 expectation에 전혀 효과가 없다고 볼 수 있어서 다음과 같이 나타낼 수 있다.
이를 estimator 분자부분에 전부 동일하게 적용할 수 있다.
결국 이를 정리하면 아주 간단하게 표현할 수 있다.
이러한 아이디어를 per-decision importance sampling이라 한다. $\tilde G_t$를 사용해서 ordinary importance sampling estimator와 같이 unbiased expectation이 되면서도 분산이 줄어든 효과를 볼 수 있다.
그렇다면 weighted importance sampling에도 적용할 수 있을까? 확실하지는 않다. 지금까지 나온 모든 estimator가 일관되지는 않기에 무한한 데이터라도 true value에 수렴하지 않는다.