OpenAI Spinning UP 번역] Vanilla Policy Gradient
OpenAI Spinning-up : Vanilla Policy Gradient Spinning up 코드 관련한 내용은 제외합니다. 배경지식(Background) (이전 내용 참조 : 강화학습 소개 파트 3) policy gradient의 핵심 아이디어는 최적의 정책이 될 때까지 return값을 더 높게 만들어주는 행동의 확률을 올리고, return값을 낮게 해주는 행동의 확률을 줄이는 것입니다. 빠르게 알고갈 사실 VPG는 on-policy 알고리즘입니다. VPG는 discrete하거나 continuous한 action space를 가진 환경에서 사용할 수 있습니다. Spinning UP 구현에서는 MPI를 이용한 병렬화를 지원합니다. 주요 방정식 $\pi_\theta$를 파라미터 $\theta$를 ..