본문으로 바로가기

Goals and Rewards

강화학습에서 에이전트의 목표는 reward hypothesis로써 다음과 같이 말한다.

That all of what we mean by goals and purposes can be well thought of as the maximization of the expected value of the cumulative sum of a received scalar signal (called reward).

즉, 에이전트가 환경과 상호작용하면서 받는 보상들의 합에 대한 기대값을 최대화 하는 것이다. 보상을 사용해 목표를 수식화하는 이러한 방식은 강화학습의 큰 특징 중 하나이다. 이 보상을 통해 에이전트가 하길 원하는 행동을 학습하도록 할 수 있다. 예를 들어, 미로에서 탈출해야하는 로봇이 있다고 할 때, 탈출하면 +1을 주어서 탈출을 유도하도록 할 수 있고, 넘어지거나 벽에 부딪히면 -1을 주어서 이를 방지할 수도 있을 것이다.

하지만 주의할 것은 목표가 무엇인지를 정하는 것이지 어떻게 해야할 지 정해주는 것이 아니다. 예를 들어, 체스에서 이길 때 +1을 주어 이기도록 학습시킬 수 있을 것이다. 그런데 만약, 쫄보다 장군들을 더 먹게 하려고 말을 먹을 때에 따라 보상을 준다면, 이기는 것 대신 말을 먹는 목표에 치중할 수도 있다.

따라서 보상을 설정하는 것은 에이전트가 어떻게 동작할 지 결정하는 중요한 요소이다. 물론 이는 에이전트가 아닌 환경의 영역이기에 환경에 대한 이해가 높아야한다.

다음 시간에는

이 절 자체가 짧았기 때문에 금방 끝나부렀다. 다음에는 중요한 개념인 Return과 Episode에 대해서 다룰 예정이다.