'2019/03/18 글 목록

2019/03/18 검색 결과

해당 글 2건

강화학습 Sutton [Ch5 Dynamic Programming] #10 Summary

Summary sample episode라는 경험을 통해 최적의 가치와 정책을 학습하는 Monte Carlo를 다룸 DP보다 좋은 장점 3가지 환경의 dynamics의 모델 없이 환경과 상호작용(interaction)으로 최적의 행동을 학습한다. 모델을 구성하기 힘든 시뮬레이션이나 샘플 모델에도 사용할 수 있다. 흥미로운 상태 일부분들에만 집중해서도 사용할 수 있다.(8장에서 더 자세히 다룸) 또다른 장점은 4장에서 소개된 generalized policy iteration(GPI) 방법을 따라서 사용할 수 있다. (Policy evaluation, Policy improvement) 다만 policy evaluation에서 모델없이 한다는 점과 episode-by-episode 기반으로 한다는 점이 다..

Sutton Books/Sutton 노트 2019. 3. 18. 14:16

강화학습 Sutton [Ch5 Dynamic Programming] #9 *Per-decision Importance Sampling

Per-decision Importance Sampling return을 보상의 합으로 보고 off-policy importance sampling을 하면서 생기는 분산을 줄이는 또다른 방법이 있다. 이전 ordinary와 weighted importance sampling을 다시 떠올려보자. 여기서 $V$를 estimate 하기 때문에 estimator라고 부른다. 잘 보면 두 estimator 분자 부분은 동일하다. 그런데 여기서 첫 번째 항 $\rho_{t:T-1}R_{t+1}$을 풀어보면 다음과 같다. 이전 절에서도 그랬듯 실제로는 $ \frac{\pi(A_t|S_t)}{b(A_t|S_t)} $ 항과 $R_{t+1}$이 관련이 높고 나머지는 관련이 없다고 볼 수 있다. 왜냐하면 $R_{t+1}$ ..

Sutton Books/Sutton 노트 2019. 3. 18. 13:38

MCLearning's FrontEnd StudyRoom

2019/03/18 검색 결과

강화학습 Sutton [Ch5 Dynamic Programming] #10 Summary

강화학습 Sutton [Ch5 Dynamic Programming] #9 *Per-decision Importance Sampling

티스토리툴바