강화학습 Sutton [Ch5 Dynamic Programming] #5 Off-policy Prediction via Importance Sampling
Off-policy Prediction via Importance Sampling control을 학습하는 방법은 최적이라고 생각하는 행동을 하면서 행동 가치를 학습해야하지만, (최적의 행동을 찾기 위해) 모든 행동을 탐험(최적이 아닌 행동)을 해야한다는 것이다. 탐험하는 정책을 통해 어떻게 최적의 정책을 학습하는 걸까? 이전 절에서 나온 on-policy 방법은 최적의 정책 대신 탐험을 계속하도록 하는 최적에 가까운 정책을 하면서 타협을 한 것이다. 좀 더 간단한 방법은 두 개의 정책을 사용해, 하나는 최적의 정책을 학습하고, 다른 하나는 직접 행동하는 정책을 두는 것이다. 전자를 target policy, 후자를 behavior policy라고 부른다. target policy가 아닌 데이터에 의해서..