강화학습 Sutton [Ch3 Finite Markov Decision Processes] #7 Optimality and Approximation

Optimality and Approximation

이전 시간에 최적의 가치 함수와 최적의 정책에 대해 다루었다. 최적의 정책을 구할 수 있다면 좋겠지만, 순수하게 수식적으로 계산하기에 계산량도 많고 메모리도 많이 요구된다.(가치 함수, 정책, 모델 등 저장해야한다.) 작은 문제에서야 table이나 배열(array) 형태로 저장하면 된다지만(이를 tabular case라 부른다), 바둑, 게임, 로봇 같이 거대한 문제에서 모든 상태에 대한 각 정보를 저장하기란 불가능에 가깝다. 따라서 이를 근사(approximate)해서 구할 수 밖에 없지만, 떄론 나쁜 선택이 좋을 수도 있고, 빈번하게 발생하는 상태에 대해 더 노력을 들이고, 잘 발생하지 않는 상태에 대해서 노력을 적게 들이는 방식으로 학습할 수 있다. 이것이 강화학습이 다른 근사 방법과 다른 차이점이라 볼 수 있다.

'Sutton Books > Sutton 노트' 카테고리의 다른 글

강화학습 Sutton [Ch4 Dynamic Programming] #1 Policy Evaluation (Prediction) (0)	2019.02.11
강화학습 Sutton [Ch3 Finite Markov Decision Processes] #8 Summary (0)	2019.02.10
강화학습 Sutton [Ch3 Finite Markov Decision Processes] #6 Optimal Policies and Optimal Value Functions (0)	2019.02.09
강화학습 Sutton [Ch3 Finite Markov Decision Processes] #5 Policies and Value Functions (0)	2019.02.08
강화학습 Sutton [Ch3 Finite Markov Decision Processes] #4 Unified Notation for Episodic and Continuing Tasks (0)	2019.02.07

MCLearning's FrontEnd StudyRoom

강화학습 Sutton [Ch3 Finite Markov Decision Processes] #7 Optimality and Approximation

Optimality and Approximation

'Sutton Books > Sutton 노트' 카테고리의 다른 글

티스토리툴바

Optimality and Approximation

'Sutton Books > Sutton 노트' 카테고리의 다른 글

검색

티스토리툴바