강화학습 Sutton [Ch5 Dynamic Programming] #3 Monte Carlo Control
Monte Carlo Control 이제 Monte Carlo estimation이 control 문제에서 최적의 정책을 근사(approximate)하기 위해 어떻게 사용되는지 알아볼 것이다. Monte Carlo Control은 전반적으로 GPI의 아이디어와 비슷하다. GPI에서는 현재 정책에 대한 가치함수를 근사하고, 그 가치함수를 가지고 정책을 개선했었는데, 아래 그림처럼 이를 반복해가면서 최적의 정책과 가치함수를 찾았다고 볼 수 있다. Monte Carlo도 이와 같이 policy iteration으로 본다면, policy evaluation과 policy iteration으로 나누어 볼 수 있다. Policy evaluation에서는 많은 에피소드에 걸쳐 경험(experience)을 해서 행동 ..