강화학습 Sutton [Ch4 Dynamic Programming] #6 Generalized Policy Iteration
Generalized Policy Iteration Policy iteration은 정책 평가(policy evaluation)와 정책 개선(policy improvement)을 번갈아가며 하지만, Value iteration(이 또한 Policy Iteration의 한 종류)은 개선과 평가를 동시에 한다. Asynchronous DP의 경우도 아주 미세한 차이로 평가와 개선이 실행된다. 하나의 상태가 다른 곳에 전달되기도 전에 업데이트 되는 경우도 있을 것이다. 하지만 이 모두 정책 평가와 개선이 계속 이루어진다면 보통은 최적의 가치함수와 정책에 도달한다. 이렇게 정책 평가와 개선이 서로 상호작용하는 이 개념을 generalized policy iteration (GPI)라고 부른다. 거의 대부분 강화..