강화학습 Sutton [Ch6 Temporal-Difference] #1 TD Prediction
Temporal-difference (TD)는 Monte Carlo (MC)처럼 환경의 dynamics 모델없이 experience만으로 학습하고, dynamic programming (DP)처럼 return이 아닌 학습했던 estimate를 사용해서 estimate한다.(bootstrap) TD, MC, DP간의 관계는 강화학습 이론에서 자주 나오며, n-step이나 TD($\lambda$)와 같이 다양한 형태로 조합이 나올 수 있다. DP와 TD, MC는 모두 GPI에서 약간 변형된 형태로 볼 수 있다. 다만 다른 점은 모두 prediction 문제를 어떻게 해결하냐의 차이이다. 이전에도 그랬듯 주어진 정책 $\pi$로부터 가치 $v_\pi$를 구하는 prediction 문제를 다루고 최적의 정책을 ..