강화학습 Sutton [Ch4 Dynamic Programming] #4 Value Iteration
policy iteration의 단점은 policy evaluation이 있으며 이를 sweep을 여러 번 해서 수렴할 때까지 기다려야 한다는 것이다. 사실, 꼭 가치함수가 수렴할 때까지 않고, 몇 번 sweep 하는 것(truncated policy evaluation)만으로도 동일하게 수렴할 수 있다. 근데 이를 딱 한 번만 sweep하는 특별한 경우가 있는데, 이를 value iteration이라 한다. 한 번의 정책 개선과 한 번의 정책 평가가 결합되어 업데이트하는 방법이다. $v_\ast$가 있다는 보장하에 $v_k$는 반복하다보면 수렴하게 된다. 근데 잘 보면, 이전에 배운 벨만 최적 방정식 (Bellman Optimality Equation)과 똑같다. 모든 경우의 상태의 가치로 업데이트 하..