본문으로 바로가기

Generalized Policy Iteration

Policy iteration은 정책 평가(policy evaluation)와 정책 개선(policy improvement)을 번갈아가며 하지만, Value iteration(이 또한 Policy Iteration의 한 종류)은 개선과 평가를 동시에 한다. Asynchronous DP의 경우도 아주 미세한 차이로 평가와 개선이 실행된다. 하나의 상태가 다른 곳에 전달되기도 전에 업데이트 되는 경우도 있을 것이다. 하지만 이 모두 정책 평가와 개선이 계속 이루어진다면 보통은 최적의 가치함수와 정책에 도달한다.

이렇게 정책 평가와 개선이 서로 상호작용하는 이 개념을 generalized policy iteration (GPI)라고 부른다. 거의 대부분 강화학습 알고리즘은 GPI로 설명될 수 있다.

즉, 알고리즘들 모두 가치함수에 의해 정책이 개선되고, 정책에 대한 가치함수가 도출된다. 이러한 평가와 개선이 안정적이게 되면(즉 변화가 거의 없다면) 최적의 가치함수와 정책이라고 볼 수 있다.

정책 평가와 개선을 경쟁과 협력의 시점으로 보는 내용이 있지만, 다소 헷갈릴 수 있는 표현이라 생각되어 생략

또 다른 시점으로는 두 가지의 제약(constraint) 또는 목표로 볼 수 있다. 예를 들어, 두 개의 차원이 다음과 같이 존재한다고 하자.

실제로는 더 복잡하겠지만, 이 그림은 실제로 일어나는 일을 표현한 것으로, 각 프로세스는 목표를 나타내는 두 개의 선을 향해 가치 함수와 정책을 유도한다고 볼 수 있다. 한 목표에서 다른 목표로 수직으로 간다. 근데 가치함수와 정책의 목표는 서로 수직이 아니기 때문에 일단 한 목표로 이동하면 다른 목표로 수직으로 이동하면서 나아갈 수 있다. 결국 최적으로 향하는 목표에 가까워진다. 화살표는 policy iteration의 동작으로 하나의 목표에 (정책 평가 또는 정책 개선) 도달하는 모습이다. (선을 따라 움직이지 않음에도 결국 최적에 도달할 수 있다는 것을 보인다.)