'Monte Carlo Prediction' 태그의 글 목록

강화학습 Sutton [Ch5 Dynamic Programming] #2 Monte Carlo Estimation of Action Values

Monte Carlo Estimation of Action Values (환경에 대한) 모델을 사용할 수 있다면, DP에서 했던 것처럼 상태 가치함수만으로 충분히 정책을 결정할 수 있다. 하지만 모델을 사용할 수 없다면, 상태 가치 함수보다는 행동 가치 함수를 추정(estimate)하는게 더 좋을 것이다. 가치를 추측해서 이 가치 자체로 정책으로 사용할 수 있기 때문이다. 따라서 모델을 모를 때 사용할 이 Monte Carlo 또한 $q_\ast$를 estimate하는 것이 목표다. 그러기 위해서 먼저 행동 가치에 대해 어떻게 policy evaluation을 할지 생각해봐야 한다. Monte Carlo 방법에서는 행동 가치함수에 대해 estimate할 것이기 때문에, 상태 가치함수와 본질 적으로 같지만..

Sutton Books/Sutton 노트 2019. 2. 19. 21:29

MCLearning's FrontEnd StudyRoom

Monte Carlo Prediction 검색 결과

강화학습 Sutton [Ch5 Dynamic Programming] #2 Monte Carlo Estimation of Action Values

티스토리툴바