강화학습 Sutton [Ch4 Dynamic Programming] #5 Asynchronous Dynamic Programming
Asynchronous Dynamic Programming DP (Dynamic Programming)의 단점은 MDP의 상태 전부를 가지고 하는 연산이다. 즉, 상태 전체에 걸쳐 sweep을 해야한다는 것. 당연히 상태가 매우 커진다면, 계산량이 엄청 많이 필요해지는 건 당연하다. Asynchronous DP는 이를 좀 더 개선하는 방법 중 하나로, 이전처럼 상태 하나하나 순서대로 sweep하는 것 대신, 동시에 비동기적으로 하는 것이다. 물론 어떤 상태는 이미 여러 번 업데이트 된 것일 수 있고, 한 번도 안한 것일 수도 있으나, 반드시 모든 상태에 대해서 계속 iteration을 한다면 수렴한다. Asynchronous DP는 업데이트할 상태를 선택하는 것에 이썽서 굉장히 유연하다. 예를 들어 po..