본문으로 바로가기

policy iteration의 단점은 policy evaluation이 있으며 이를 sweep을 여러 번 해서 수렴할 때까지 기다려야 한다는 것이다. 사실, 꼭 가치함수가 수렴할 때까지 않고, 몇 번 sweep 하는 것(truncated policy evaluation)만으로도 동일하게 수렴할 수 있다.

근데 이를 딱 한 번만 sweep하는 특별한 경우가 있는데, 이를 value iteration이라 한다. 한 번의 정책 개선과 한 번의 정책 평가가 결합되어 업데이트하는 방법이다.

$v_\ast$가 있다는 보장하에 $v_k$는 반복하다보면 수렴하게 된다. 근데 잘 보면, 이전에 배운 벨만 최적 방정식 (Bellman Optimality Equation)과 똑같다. 모든 경우의 상태의 가치로 업데이트 하는 것이 아닌 최대인 가치를 가지고 업데이트한다.

value iteration은 max operation이 추가된 것을 제외하고는 truncated policy iteration의 한 종류라고 볼 수 있다.