'2019/02/14 글 목록

2019/02/14 검색 결과

해당 글 2건

강화학습 Sutton [Ch4 Dynamic Programming] #4 Value Iteration

policy iteration의 단점은 policy evaluation이 있으며 이를 sweep을 여러 번 해서 수렴할 때까지 기다려야 한다는 것이다. 사실, 꼭 가치함수가 수렴할 때까지 않고, 몇 번 sweep 하는 것(truncated policy evaluation)만으로도 동일하게 수렴할 수 있다. 근데 이를 딱 한 번만 sweep하는 특별한 경우가 있는데, 이를 value iteration이라 한다. 한 번의 정책 개선과 한 번의 정책 평가가 결합되어 업데이트하는 방법이다. $v_\ast$가 있다는 보장하에 $v_k$는 반복하다보면 수렴하게 된다. 근데 잘 보면, 이전에 배운 벨만 최적 방정식 (Bellman Optimality Equation)과 똑같다. 모든 경우의 상태의 가치로 업데이트 하..

Sutton Books/Sutton 노트 2019. 2. 14. 11:27

강화학습 Sutton [Ch4 Dynamic Programming] #3 Policy Iteration

Policy Iteration 이전에 어떤 정책 $\pi$에 대한 가치 $v_\pi$ 구해서 이를 통해 개선했었다. 그리고 다시 개선된 정책 $\pi'$을 가지고 가지고 가치 $v_\pi'$를 판단하고 개선하고...새로운 정책은 확실히 이전 정책보다 좋으며, 유한한(finite) MDP에서 유한한 수의 정책을 사용하기 때문에, 결국 유한한 반복으로 결국 최적의 가치와 정책에 수렴한다. 이 때 $\xrightarrow{\text{E}}$는 정책 평가(policy evaluation)를, $\xrightarrow{\text{I}}$는 정책 개선(policy improvement)를 의미한다. 이러한 방법으로 정책을 찾는 과정을 policy iteration이라 한다.

Sutton Books/Sutton 노트 2019. 2. 14. 00:14

MCLearning's FrontEnd StudyRoom

2019/02/14 검색 결과

강화학습 Sutton [Ch4 Dynamic Programming] #4 Value Iteration

강화학습 Sutton [Ch4 Dynamic Programming] #3 Policy Iteration

티스토리툴바