'2019/02/17 글 목록

2019/02/17 검색 결과

해당 글 2건

강화학습 Sutton [Ch4 Dynamic Programming] #8 Summary

Summary finite MDP 푸는 문제로 Dynamic programming에 대한 기본 개념과 알고리즘을 배웠다. 정책 평가(Policy evaluation)은 주어진 정책에 대한 가치함수의 반복적인 계산(iterative computation)이다 정책 개선(Policy improvement)은 정책에 대한 가치함수를 가지고 정책을 개선하는 계산이다. 위 두 개(정책 평가, 정책 개선)을 통해 DP에서 가장 대표적인 policy iteration과 value iteration을 할 수 있다. 그리고 확실히 최적의 정책과 가치함수를 구할 수 있다. 고전 DP는 상태들에 대해 sweep에서 연산을 다음의 상태와 그렇게 될 확률을 모두 고려한 가치를 업데이트 하는 expected update oper..

Sutton Books/Sutton 노트 2019. 2. 17. 12:00

강화학습 Sutton [Ch4 Dynamic Programming] #7 Effciency of Dynamic Programming

Effciency of Dynamic Programming DP는 큰 문제에서는 실용적이지 않더라도 다른 방법에 비해서는 꽤 효율적이다. 다항식을 통해 직접 최적의 정책을 구하는 것보다 빠르기 때문이다. 그럼에도 불구하고 두 방법 모두 최적의 정책을 찾아낸다. Linear programming의 경우도 사용될 수 있으며, 어떤 경우에는 DP보다 최악의 경우에 수렴에 대한 보장이 더 잘된다. 하지만 더 작은 상태를 가진 경우에 쓰이기 때문에 DP보다 실용적이지 않다. 그럼에도 불구하고 DP가 쓰이기 어려운건 차원의 저주(curse of dimensionality) 때문이다. 상태의 수가 늘어나면 상태에 대한 변수들 수도 기하급수적으로 증가한다. 하지만 이건 DP가 아닌 문제 자체의 본질적인 문제이다. 다른..

Sutton Books/Sutton 노트 2019. 2. 17. 11:00

MCLearning's FrontEnd StudyRoom

2019/02/17 검색 결과

강화학습 Sutton [Ch4 Dynamic Programming] #8 Summary

강화학습 Sutton [Ch4 Dynamic Programming] #7 Effciency of Dynamic Programming

티스토리툴바