본문으로 바로가기

Summary

  • 강화학습은 목표를 위해 에이전트와 환경이 상호작용하면서 학습하는 것을 말한다.
  • 이러한 상호작용은 어떤 요소를 주고 받는다.
    • 에이전트가 선택하는 행동
    • 이러한 선택의 기반 상태
    • 이러한 선택의 평가하는 기반 보상
  • 에이전트 내에 모든 것은 에이전트가 완전히 알고 제어 가능한 것이며, 그 밖의 것은 완전히 모를 수도 있는 환경의 것이다.
  • 정책은 상태에 따라 에이전트가 선택하는 행동의 확률적인 규칙을 말한다.
  • 에이전트의 목표는 앞으로 받을 보상의 양을 최대화 하는 것
  • 전이 확률(transition probabilities)와 함께 정의가 잘 되면 Markov decision process(MDP)라고 부른다.
  • finite MDP는 제한이 있는 상태, 행동 보상의 집합을 가진 MDP를 말한다.
  • return은 에이전트가 최대화하기위해 노력하는 미래 보상들의 합이다(expected value로 표현하며 상황에 따라 discount factor가 포함된다.)
  • 상호작용이 끝나는 지점이 있다면 episodic task(undiscounted), 계속 된다면 continuing task(discounted)
  • 각 상태마다 정책의 가치함수(value function)가 할당되어 있다. 이는 expected return으로 표현
    • 상태에 대한 가치함수
    • 행동에 대한 가치함수
  • 최적의 가치 함수(optimal value function) 또한 각 상태마다 할당 되어 있으며, 어떤 정책이 이룰 가장 큰 expected return이다.
  • 최적의 가치함수에 따른 정책은 최적의 정책(optimal policy)이 된다.
  • 최적의 가치함수는 최소한 하나 이상 있으며, 이를 greedy하게 선택한다면 최적의 정책이 된다.
  • 벨만 최적 방정식은 최적의 가치함수가 만족해야하는 일관성 조건으로 이를 만족하는 해를 구하면 최적의 가치를 구할 수 있으며, 마찬가지로 최적의 정책을 구할 수 있다.
  • 환경을 완전히 안다면(complete knowledge) 환경에 대한 완벽한 모델을 구성할 수 있지만, 완전히 알지 못한다면(incomplete knowledge) 구성할 수 없다.
  • 설령 완전히 안다고 해도 큰 문제일수록, tabular 방법으로는 풀 수 없다. 따라서 근사(approximate)를 해야한다.