OpenAI Spinning UP 번역] Proximal Policy Optimization 2019.05.21 해석 자연스럽게 수정 Proximal Policy Optimization 배경지식 (Background) 빠르게 알고갈 사실 (Quick Facts) 주요 방정식 (Key Equations) 탐험 vs 활용 (Exploration vs. Exploitation) 의사 코드 (Pseudo code) Proximal Policy Optimization배경지식 (Background)PPO는 현재 가지고 있는 데이터로 성능을 떨어뜨리지 않으면서 정책을 개선시키는 step을 가능한 멀리 밟도록하려면 어떻게 해야하는 지에 대해 고민했다는 점에서 TRPO와 같습니다. TRPO는 복잡한 2차 근사(second-order) 방법으로 해결했다면, PPO는 이전 정책과 새로운 정책이 가깝게 유지하도록 약.. Online Tutorials/OpenAI Spinnig Up 6년 전
OpenAI Spinning UP 번역] Vanilla Policy Gradient OpenAI Spinning-up : Vanilla Policy Gradient Spinning up 코드 관련한 내용은 제외합니다. 배경지식(Background) (이전 내용 참조 : 강화학습 소개 파트 3) policy gradient의 핵심 아이디어는 최적의 정책이 될 때까지 return값을 더 높게 만들어주는 행동의 확률을 올리고, return값을 낮게 해주는 행동의 확률을 줄이는 것입니다. 빠르게 알고갈 사실 VPG는 on-policy 알고리즘입니다. VPG는 discrete하거나 continuous한 action space를 가진 환경에서 사용할 수 있습니다. Spinning UP 구현에서는 MPI를 이용한 병렬화를 지원합니다. 주요 방정식 $\pi_\theta$를 파라미터 $\theta$를 .. Online Tutorials/OpenAI Spinnig Up 6년 전