Ch2. Multi-armed Bandit (2) Action-value Methods
이 글은 Richard S. Sutton과 Andrew G. Barto의 Reinforcement Learning: An Introduction second edition을 기반으로 하고 있습니다. 개인적인 주관과 지식으로 인해 틀린 내용이 있을 수 있으므로 피드백이나 질문은 언제나 환영입니다. Action-Value Methods 이전에 행동에 대한 가치(action-value)를 추정(estimate)하고, 가치가 높은 행동(greedy action)을 선택한다고 했다. 이렇게 행동을 결정하는 방법에 대해 action-value method라 부르겠다. 다시 이전 절에서 떠올려보면, 행동에 대한 '진짜' 가치는 행동을 할 때 얻을 것이라 기대되는, 평균 보상이였다. 그렇다면 이 가치를 ..