Summary
- finite MDP 푸는 문제로 Dynamic programming에 대한 기본 개념과 알고리즘을 배웠다.
- 정책 평가(Policy evaluation)은 주어진 정책에 대한 가치함수의 반복적인 계산(iterative computation)이다
- 정책 개선(Policy improvement)은 정책에 대한 가치함수를 가지고 정책을 개선하는 계산이다.
- 위 두 개(정책 평가, 정책 개선)을 통해 DP에서 가장 대표적인 policy iteration과 value iteration을 할 수 있다. 그리고 확실히 최적의 정책과 가치함수를 구할 수 있다.
- 고전 DP는 상태들에 대해 sweep에서 연산을 다음의 상태와 그렇게 될 확률을 모두 고려한 가치를 업데이트 하는 expected update operation을 한다.
- Expected update는 Bellman equation과 관계있다. (등식이 할당으로 바뀐 것 뿐)
- 업데이트의 변화가 일정 이하면 수렴해서 Bellman Equation을 만족한 것이다.
- 거의 모든 강화학습이 Generalized Policy Iteration(GPI)라고 볼 수 있다.
- GPI는 두 프로세스가 정책과 가치함수를 주변으로 상호작용하는 개념이다.
- 둘은 서로를 기반으로 변해가고 있는 거지만 결국 하나의 해결점을 향해 나아가는 것이다.
- DP가 꼭 한번 다 sweep 할 필요는 없다. 임의의 순서로 하는 Asynchronous DP나 그 외 많은 방법들이 있다.
마지막으로 DP의 아주 특별한 특징이 있는데, 다음 상태 가치함수에 대한 추측(estimate)를 가지고 현재 가치 함수를 업데이트한다. 즉, 추측(estiamte)한 값으로 또다른 추측(estimate)를 하는데, 이를 bootstrapping이라 한다. 많은 강화학습 알고리즘에서 사용하며, 안하는 곳도 있긴 하다.
다음 챕터에서는 모델과 bootstrap이 필요없는 알고리즘에 대해서 알아볼 예정이다.