'Greedy' 태그의 글 목록

Greedy 검색 결과

해당 글 2건

Ch2. Multi-armed Bandit (2) Action-value Methods

이 글은 Richard S. Sutton과 Andrew G. Barto의 Reinforcement Learning: An Introduction second edition을 기반으로 하고 있습니다. 개인적인 주관과 지식으로 인해 틀린 내용이 있을 수 있으므로 피드백이나 질문은 언제나 환영입니다. Action-Value Methods 이전에 행동에 대한 가치(action-value)를 추정(estimate)하고, 가치가 높은 행동(greedy action)을 선택한다고 했다. 이렇게 행동을 결정하는 방법에 대해 action-value method라 부르겠다. 다시 이전 절에서 떠올려보면, 행동에 대한 '진짜' 가치는 행동을 할 때 얻을 것이라 기대되는, 평균 보상이였다. 그렇다면 이 가치를 ..

Sutton Books/Sutton 노트 2019. 1. 28. 14:03

Ch2. Multi-armed Bandit (1) A k-armed Bandit Problem

이 글은 Richard S. Sutton과 Andrew G. Barto의 Reinforcement Learning: An Introduction second edition을 기반으로 하고 있습니다. 개인적인 주관과 지식으로 인해 틀린 내용이 있을 수 있으므로 피드백이나 질문은 언제나 환영입니다. P.S. 1장은 강화학습에 대한 소개이기 때문에 생략했다. Part I: Tabular Solution Methods Part I에서 다루는 강화학습은 상태와 행동의 수가 작아서 가치 함수를 배열(array)이나 테이블(table) 형태로 나타내어 문제를 푼다. 그렇기에 정확하게 최적의 가치함수와 정책을 구할 수 있다. 하지만 상태와 행동의 수가 큰 문제의 경우에는 사용할 수 없는 방법이다. 따라서 Part 2에..

Sutton Books/Sutton 노트 2019. 1. 27. 19:11

MCLearning's FrontEnd StudyRoom

Greedy 검색 결과

Ch2. Multi-armed Bandit (2) Action-value Methods

Ch2. Multi-armed Bandit (1) A k-armed Bandit Problem

티스토리툴바