본문으로 바로가기

Summary

  • sample episode라는 경험을 통해 최적의 가치와 정책을 학습하는 Monte Carlo를 다룸

  • DP보다 좋은 장점 3가지

    • 환경의 dynamics의 모델 없이 환경과 상호작용(interaction)으로 최적의 행동을 학습한다.
    • 모델을 구성하기 힘든 시뮬레이션이나 샘플 모델에도 사용할 수 있다.
    • 흥미로운 상태 일부분들에만 집중해서도 사용할 수 있다.(8장에서 더 자세히 다룸)
  • 또다른 장점은 4장에서 소개된 generalized policy iteration(GPI) 방법을 따라서 사용할 수 있다. (Policy evaluation, Policy improvement) 다만 policy evaluation에서 모델없이 한다는 점과 episode-by-episode 기반으로 한다는 점이 다르다.

  • 충분히 exploration을 해야 return을 얻을 수 있기에 exploration을 위한 방법으로 모든 상태에서 랜덤하게 시작하는 방법이 있었다.(exploring starts)

  • 자신의 정책을 통해 얻은 데이터로 최적의 정책을 찾는 on-policy, 자신 외에 또다른 정책(behavior policy)을 통해 얻은 데이터로 최적의 정책(target policy)을 찾는 off-policy

  • off-policy는 다른 정책을 사용하기에 importance sampling이 필요

    • Ordinary importance sampling (unbiased, but large or infinite variance)
    • Weighted importance sampling (biased, but finite variance, preferred)
    • 간단하지만 아직 확실히 해결된 부분이 아니기에 연구가 진행중
  • 다시 정리하자만 MC는 DP와 달리

    • sample experience를 사용해 모델이 필요없다.
    • bootstrap을 사용하지 않는다. 즉, estimate한 value로 estimate하지 않는다.

다음 챕터에서는 Monte Carlo처럼 experience로 학습하면서도 DP처럼 bootstrap를 하는 Temporal difference에 대해 다룬다.