강화학습 Sutton [Ch4 Dynamic Programming] #8 Summary
Summary finite MDP 푸는 문제로 Dynamic programming에 대한 기본 개념과 알고리즘을 배웠다. 정책 평가(Policy evaluation)은 주어진 정책에 대한 가치함수의 반복적인 계산(iterative computation)이다 정책 개선(Policy improvement)은 정책에 대한 가치함수를 가지고 정책을 개선하는 계산이다. 위 두 개(정책 평가, 정책 개선)을 통해 DP에서 가장 대표적인 policy iteration과 value iteration을 할 수 있다. 그리고 확실히 최적의 정책과 가치함수를 구할 수 있다. 고전 DP는 상태들에 대해 sweep에서 연산을 다음의 상태와 그렇게 될 확률을 모두 고려한 가치를 업데이트 하는 expected update oper..