강화학습 Sutton [Ch3 Finite Markov Decision Processes] #2 Goals and Rewards
Goals and Rewards 강화학습에서 에이전트의 목표는 reward hypothesis로써 다음과 같이 말한다. That all of what we mean by goals and purposes can be well thought of as the maximization of the expected value of the cumulative sum of a received scalar signal (called reward). 즉, 에이전트가 환경과 상호작용하면서 받는 보상들의 합에 대한 기대값을 최대화 하는 것이다. 보상을 사용해 목표를 수식화하는 이러한 방식은 강화학습의 큰 특징 중 하나이다. 이 보상을 통해 에이전트가 하길 원하는 행동을 학습하도록 할 수 있다. 예를 들어, 미로에서 탈출해..