강화학습 Sutton [Ch5 Dynamic Programming] #6 Incremental Implementation
Incremental Implementation Monte Carlo 또한 이전의 episode별로 해서 incremental implementation을 할 수 있다. 이는 2.4절에 나왔었다. 다만 차이점은 average reward가 아닌 average return으로 한다는 점이다. 그 외에는 거의 똑같이 on-policy Monte Carlo 방법에 적용된다. 하지만 off-policy Monte Carlo에서는 importance sampling(ordinary or weighted)이 고려되어야 한다. 먼저 ordinary importance sampling 같은 경우, importance sampling ratio를 구하고, 이전처럼 importance sampling ratio를 적용해 ..