'e-greedy' 태그의 글 목록

강화학습 Sutton [Ch5 Dynamic Programming] #4 Monte Carlo Control without Exploring Starts

Monte Carlo Control without Exploring Starts Exploring starts라는 가정을 없애려면 어떻게 해야할까? 바로 에이전트가 계속 탐험을 할 수 있도록, 즉, 해보지 않은 행동에 대해서도 가끔 선택할 수 있도록 해야 한다. 그러한 방법에는 두 가지가 있는데 하나는 on-policy, 다른 하나는 off-policy가 있다. on-policy는 결정했던 행동들을 가지고 정책 평가와 발전을 하지만 off-policy는 다른 방법에 의해 만들어진 데이터로 정책 평가와 발전을 한다. Monte Carlo ES 또한 on-policy이며, 이번 절에서는 Monte Carlo control를 exploring starts 없이 어떻게 만드는지 보인다. off-policy는 다..

Sutton Books/Sutton 노트 2019. 3. 4. 08:44

Ch2. Multi-armed Bandit (2) Action-value Methods

이 글은 Richard S. Sutton과 Andrew G. Barto의 Reinforcement Learning: An Introduction second edition을 기반으로 하고 있습니다. 개인적인 주관과 지식으로 인해 틀린 내용이 있을 수 있으므로 피드백이나 질문은 언제나 환영입니다. Action-Value Methods 이전에 행동에 대한 가치(action-value)를 추정(estimate)하고, 가치가 높은 행동(greedy action)을 선택한다고 했다. 이렇게 행동을 결정하는 방법에 대해 action-value method라 부르겠다. 다시 이전 절에서 떠올려보면, 행동에 대한 '진짜' 가치는 행동을 할 때 얻을 것이라 기대되는, 평균 보상이였다. 그렇다면 이 가치를 ..

Sutton Books/Sutton 노트 2019. 1. 28. 14:03

Ch2. Multi-armed Bandit (1) A k-armed Bandit Problem

이 글은 Richard S. Sutton과 Andrew G. Barto의 Reinforcement Learning: An Introduction second edition을 기반으로 하고 있습니다. 개인적인 주관과 지식으로 인해 틀린 내용이 있을 수 있으므로 피드백이나 질문은 언제나 환영입니다. P.S. 1장은 강화학습에 대한 소개이기 때문에 생략했다. Part I: Tabular Solution Methods Part I에서 다루는 강화학습은 상태와 행동의 수가 작아서 가치 함수를 배열(array)이나 테이블(table) 형태로 나타내어 문제를 푼다. 그렇기에 정확하게 최적의 가치함수와 정책을 구할 수 있다. 하지만 상태와 행동의 수가 큰 문제의 경우에는 사용할 수 없는 방법이다. 따라서 Part 2에..

Sutton Books/Sutton 노트 2019. 1. 27. 19:11

MCLearning's FrontEnd StudyRoom

e-greedy 검색 결과

강화학습 Sutton [Ch5 Dynamic Programming] #4 Monte Carlo Control without Exploring Starts

Ch2. Multi-armed Bandit (2) Action-value Methods

Ch2. Multi-armed Bandit (1) A k-armed Bandit Problem

티스토리툴바