'Policy Iteration' 태그의 글 목록

Policy Iteration 검색 결과

해당 글 2건

강화학습 Sutton [Ch4 Dynamic Programming] #7 Effciency of Dynamic Programming

Effciency of Dynamic Programming DP는 큰 문제에서는 실용적이지 않더라도 다른 방법에 비해서는 꽤 효율적이다. 다항식을 통해 직접 최적의 정책을 구하는 것보다 빠르기 때문이다. 그럼에도 불구하고 두 방법 모두 최적의 정책을 찾아낸다. Linear programming의 경우도 사용될 수 있으며, 어떤 경우에는 DP보다 최악의 경우에 수렴에 대한 보장이 더 잘된다. 하지만 더 작은 상태를 가진 경우에 쓰이기 때문에 DP보다 실용적이지 않다. 그럼에도 불구하고 DP가 쓰이기 어려운건 차원의 저주(curse of dimensionality) 때문이다. 상태의 수가 늘어나면 상태에 대한 변수들 수도 기하급수적으로 증가한다. 하지만 이건 DP가 아닌 문제 자체의 본질적인 문제이다. 다른..

Sutton Books/Sutton 노트 2019. 2. 17. 11:00

강화학습 Sutton [Ch4 Dynamic Programming] #3 Policy Iteration

Policy Iteration 이전에 어떤 정책 $\pi$에 대한 가치 $v_\pi$ 구해서 이를 통해 개선했었다. 그리고 다시 개선된 정책 $\pi'$을 가지고 가지고 가치 $v_\pi'$를 판단하고 개선하고...새로운 정책은 확실히 이전 정책보다 좋으며, 유한한(finite) MDP에서 유한한 수의 정책을 사용하기 때문에, 결국 유한한 반복으로 결국 최적의 가치와 정책에 수렴한다. 이 때 $\xrightarrow{\text{E}}$는 정책 평가(policy evaluation)를, $\xrightarrow{\text{I}}$는 정책 개선(policy improvement)를 의미한다. 이러한 방법으로 정책을 찾는 과정을 policy iteration이라 한다.

Sutton Books/Sutton 노트 2019. 2. 14. 00:14

MCLearning's FrontEnd StudyRoom

Policy Iteration 검색 결과

강화학습 Sutton [Ch4 Dynamic Programming] #7 Effciency of Dynamic Programming

강화학습 Sutton [Ch4 Dynamic Programming] #3 Policy Iteration

티스토리툴바