Ch2. Multi-armed Bandit (1) A k-armed Bandit Problem
이 글은 Richard S. Sutton과 Andrew G. Barto의 Reinforcement Learning: An Introduction second edition을 기반으로 하고 있습니다. 개인적인 주관과 지식으로 인해 틀린 내용이 있을 수 있으므로 피드백이나 질문은 언제나 환영입니다. P.S. 1장은 강화학습에 대한 소개이기 때문에 생략했다. Part I: Tabular Solution Methods Part I에서 다루는 강화학습은 상태와 행동의 수가 작아서 가치 함수를 배열(array)이나 테이블(table) 형태로 나타내어 문제를 푼다. 그렇기에 정확하게 최적의 가치함수와 정책을 구할 수 있다. 하지만 상태와 행동의 수가 큰 문제의 경우에는 사용할 수 없는 방법이다. 따라서 Part 2에..