본문으로 바로가기

Optimality and Approximation

이전 시간에 최적의 가치 함수와 최적의 정책에 대해 다루었다. 최적의 정책을 구할 수 있다면 좋겠지만, 순수하게 수식적으로 계산하기에 계산량도 많고 메모리도 많이 요구된다.(가치 함수, 정책, 모델 등 저장해야한다.) 작은 문제에서야 table이나 배열(array) 형태로 저장하면 된다지만(이를 tabular case라 부른다), 바둑, 게임, 로봇 같이 거대한 문제에서 모든 상태에 대한 각 정보를 저장하기란 불가능에 가깝다. 따라서 이를 근사(approximate)해서 구할 수 밖에 없지만, 떄론 나쁜 선택이 좋을 수도 있고, 빈번하게 발생하는 상태에 대해 더 노력을 들이고, 잘 발생하지 않는 상태에 대해서 노력을 적게 들이는 방식으로 학습할 수 있다. 이것이 강화학습이 다른 근사 방법과 다른 차이점이라 볼 수 있다.