강화학습 Sutton [Ch5 Dynamic Programming] #10 Summary
Summary sample episode라는 경험을 통해 최적의 가치와 정책을 학습하는 Monte Carlo를 다룸 DP보다 좋은 장점 3가지 환경의 dynamics의 모델 없이 환경과 상호작용(interaction)으로 최적의 행동을 학습한다. 모델을 구성하기 힘든 시뮬레이션이나 샘플 모델에도 사용할 수 있다. 흥미로운 상태 일부분들에만 집중해서도 사용할 수 있다.(8장에서 더 자세히 다룸) 또다른 장점은 4장에서 소개된 generalized policy iteration(GPI) 방법을 따라서 사용할 수 있다. (Policy evaluation, Policy improvement) 다만 policy evaluation에서 모델없이 한다는 점과 episode-by-episode 기반으로 한다는 점이 다..