강화학습 Sutton [Ch5 Dynamic Programming] #7 Off-policy Monte Carlo Control
Off-policy Monte Carlo Control control 문제에서 off-policy 방법에 대해 다룬다. on-policy는 control을 위해 사용했던 policy의 가치(value)를 추정(estimate)하지만, off-policy는 policy가 행동하는 behavior policy와 평가(evaluate)되고 개선되는 target policy로 나뉜다. 이렇게 나누면서 생기는 장점은 target policy가 greedy 같은 deterministic policy가 되면서도, behvior policy를 통해 계속해서 새로운 다른 행동을 할 수 있다. 아래 알고리즘은 GPI와 weighted importance sampling 기반으로 하여 최적의 $\pi_\ast$와 $q_\a..