강화학습 Sutton [Ch5 Dynamic Programming] #4 Monte Carlo Control without Exploring Starts
Monte Carlo Control without Exploring Starts Exploring starts라는 가정을 없애려면 어떻게 해야할까? 바로 에이전트가 계속 탐험을 할 수 있도록, 즉, 해보지 않은 행동에 대해서도 가끔 선택할 수 있도록 해야 한다. 그러한 방법에는 두 가지가 있는데 하나는 on-policy, 다른 하나는 off-policy가 있다. on-policy는 결정했던 행동들을 가지고 정책 평가와 발전을 하지만 off-policy는 다른 방법에 의해 만들어진 데이터로 정책 평가와 발전을 한다. Monte Carlo ES 또한 on-policy이며, 이번 절에서는 Monte Carlo control를 exploring starts 없이 어떻게 만드는지 보인다. off-policy는 다..