강화학습 Sutton [Ch5 Dynamic Programming] #1 Monte Carlo Methods
Monte Carlo Methods 이전 챕터와 다르게 이번 챕터에서는 환경에 대해서 완전히 모른다고 가정한다. 이에 대한 해결책으로 Monte Carlo라는 방법을 사용한다. 이 방법은 경험(experience)(실제로 환경과 상호작용하면서 주고받은 상태와 행동, 보상들)이 필요한 대신 DP에서 계산에 필요했던 dynamic(상태나 보상에 대한 확률들)을 사용하진 않는다. 하지만 General Policy Iteration(GPI) 처럼 가치를 계산해서 정책을 개선한다는 점은 변함이 없다. 다만 가치를 계산할 때 MDP의 dynamic이 아닌 MDP에 의해 나온 return들의 평균을 이용할 뿐이다. Monte Carlo는 return 샘플들을 평균시키는 방법을 기반하고 있기 때문에, episodic ..