강화학습 Sutton [Ch4 Dynamic Programming] #3 Policy Iteration

Policy Iteration

이전에 어떤 정책 $\pi$에 대한 가치 $v_\pi$ 구해서 이를 통해 개선했었다. 그리고 다시 개선된 정책 $\pi'$을 가지고 가지고 가치 $v_\pi'$를 판단하고 개선하고...새로운 정책은 확실히 이전 정책보다 좋으며, 유한한(finite) MDP에서 유한한 수의 정책을 사용하기 때문에, 결국 유한한 반복으로 결국 최적의 가치와 정책에 수렴한다.

이 때 $\xrightarrow{\text{E}}$는 정책 평가(policy evaluation)를, $\xrightarrow{\text{I}}$는 정책 개선(policy improvement)를 의미한다.

이러한 방법으로 정책을 찾는 과정을 policy iteration이라 한다.

'Sutton Books > Sutton 노트' 카테고리의 다른 글

강화학습 Sutton [Ch4 Dynamic Programming] #5 Asynchronous Dynamic Programming (0)	2019.02.15
강화학습 Sutton [Ch4 Dynamic Programming] #4 Value Iteration (0)	2019.02.14
강화학습 Sutton [Ch4 Dynamic Programming] #2 Policy Improvement (0)	2019.02.12
강화학습 Sutton [Ch4 Dynamic Programming] #1 Policy Evaluation (Prediction) (0)	2019.02.11
강화학습 Sutton [Ch3 Finite Markov Decision Processes] #8 Summary (0)	2019.02.10

MCLearning's FrontEnd StudyRoom

강화학습 Sutton [Ch4 Dynamic Programming] #3 Policy Iteration

Policy Iteration

'Sutton Books > Sutton 노트' 카테고리의 다른 글

티스토리툴바

Policy Iteration

'Sutton Books > Sutton 노트' 카테고리의 다른 글

검색

티스토리툴바