강화학습 sutton ch2 Multi-armed Bandit] #3
Incremental Implementation 저번 시간에는 행동 가치를 추측하고 가치를 통해 행동을 선택하는 방법에 대해 얘기했다. 행동 가치를 추측하는 방법으로 sample-average을 사용하는 데, 행동할 때마다 일일이 이전의 모든 보상을 가져오는 것은 비효율적(메모리나 계산 효율 등)이다. 따라서 이를 약간 변형할 것이다. k번까지 보상을 받았다고 하면 추측한 k+1번째 $Q_{k+1}$은 다음과 같다. $k=1$이라면, $Q_2=R_1$이 된다. 이전 sample-average와 달리 오로지 $Q_k$와 $k$만 있으면 되기에 계산량이 적다. 위 식을 일반적인 식으로 다음과 같이 나타낼 수 있다. [Target - OldEstimate]는 추측(estimate)에서 error이다. Targ..