강화학습 Sutton [Ch5 Dynamic Programming] #2 Monte Carlo Estimation of Action Values
Monte Carlo Estimation of Action Values (환경에 대한) 모델을 사용할 수 있다면, DP에서 했던 것처럼 상태 가치함수만으로 충분히 정책을 결정할 수 있다. 하지만 모델을 사용할 수 없다면, 상태 가치 함수보다는 행동 가치 함수를 추정(estimate)하는게 더 좋을 것이다. 가치를 추측해서 이 가치 자체로 정책으로 사용할 수 있기 때문이다. 따라서 모델을 모를 때 사용할 이 Monte Carlo 또한 $q_\ast$를 estimate하는 것이 목표다. 그러기 위해서 먼저 행동 가치에 대해 어떻게 policy evaluation을 할지 생각해봐야 한다. Monte Carlo 방법에서는 행동 가치함수에 대해 estimate할 것이기 때문에, 상태 가치함수와 본질 적으로 같지만..