강화학습 Sutton [Ch3 Finite Markov Decision Processes] #8 Summary

Summary

강화학습은 목표를 위해 에이전트와 환경이 상호작용하면서 학습하는 것을 말한다.
이러한 상호작용은 어떤 요소를 주고 받는다.
- 에이전트가 선택하는 행동
- 이러한 선택의 기반 상태
- 이러한 선택의 평가하는 기반 보상
에이전트 내에 모든 것은 에이전트가 완전히 알고 제어 가능한 것이며, 그 밖의 것은 완전히 모를 수도 있는 환경의 것이다.
정책은 상태에 따라 에이전트가 선택하는 행동의 확률적인 규칙을 말한다.
에이전트의 목표는 앞으로 받을 보상의 양을 최대화 하는 것
전이 확률(transition probabilities)와 함께 정의가 잘 되면 Markov decision process(MDP)라고 부른다.
finite MDP는 제한이 있는 상태, 행동 보상의 집합을 가진 MDP를 말한다.
return은 에이전트가 최대화하기위해 노력하는 미래 보상들의 합이다(expected value로 표현하며 상황에 따라 discount factor가 포함된다.)
상호작용이 끝나는 지점이 있다면 episodic task(undiscounted), 계속 된다면 continuing task(discounted)
각 상태마다 정책의 가치함수(value function)가 할당되어 있다. 이는 expected return으로 표현
- 상태에 대한 가치함수
- 행동에 대한 가치함수
최적의 가치 함수(optimal value function) 또한 각 상태마다 할당 되어 있으며, 어떤 정책이 이룰 가장 큰 expected return이다.
최적의 가치함수에 따른 정책은 최적의 정책(optimal policy)이 된다.
최적의 가치함수는 최소한 하나 이상 있으며, 이를 greedy하게 선택한다면 최적의 정책이 된다.
벨만 최적 방정식은 최적의 가치함수가 만족해야하는 일관성 조건으로 이를 만족하는 해를 구하면 최적의 가치를 구할 수 있으며, 마찬가지로 최적의 정책을 구할 수 있다.
환경을 완전히 안다면(complete knowledge) 환경에 대한 완벽한 모델을 구성할 수 있지만, 완전히 알지 못한다면(incomplete knowledge) 구성할 수 없다.
설령 완전히 안다고 해도 큰 문제일수록, tabular 방법으로는 풀 수 없다. 따라서 근사(approximate)를 해야한다.

'Sutton Books > Sutton 노트' 카테고리의 다른 글

강화학습 Sutton [Ch4 Dynamic Programming] #2 Policy Improvement (0)	2019.02.12
강화학습 Sutton [Ch4 Dynamic Programming] #1 Policy Evaluation (Prediction) (0)	2019.02.11
강화학습 Sutton [Ch3 Finite Markov Decision Processes] #7 Optimality and Approximation (0)	2019.02.10
강화학습 Sutton [Ch3 Finite Markov Decision Processes] #6 Optimal Policies and Optimal Value Functions (0)	2019.02.09
강화학습 Sutton [Ch3 Finite Markov Decision Processes] #5 Policies and Value Functions (0)	2019.02.08

MCLearning's FrontEnd StudyRoom

강화학습 Sutton [Ch3 Finite Markov Decision Processes] #8 Summary

Summary

'Sutton Books > Sutton 노트' 카테고리의 다른 글

티스토리툴바

Summary

'Sutton Books > Sutton 노트' 카테고리의 다른 글

검색

티스토리툴바