OpenAI Spinning UP 번역] Proximal Policy Optimization 2019.05.21 해석 자연스럽게 수정 Proximal Policy Optimization 배경지식 (Background) 빠르게 알고갈 사실 (Quick Facts) 주요 방정식 (Key Equations) 탐험 vs 활용 (Exploration vs. Exploitation) 의사 코드 (Pseudo code) Proximal Policy Optimization배경지식 (Background)PPO는 현재 가지고 있는 데이터로 성능을 떨어뜨리지 않으면서 정책을 개선시키는 step을 가능한 멀리 밟도록하려면 어떻게 해야하는 지에 대해 고민했다는 점에서 TRPO와 같습니다. TRPO는 복잡한 2차 근사(second-order) 방법으로 해결했다면, PPO는 이전 정책과 새로운 정책이 가깝게 유지하도록 약.. Online Tutorials/OpenAI Spinnig Up 6년 전
OpenAI Spinning UP 번역] Vanilla Policy Gradient OpenAI Spinning-up : Vanilla Policy Gradient Spinning up 코드 관련한 내용은 제외합니다. 배경지식(Background) (이전 내용 참조 : 강화학습 소개 파트 3) policy gradient의 핵심 아이디어는 최적의 정책이 될 때까지 return값을 더 높게 만들어주는 행동의 확률을 올리고, return값을 낮게 해주는 행동의 확률을 줄이는 것입니다. 빠르게 알고갈 사실 VPG는 on-policy 알고리즘입니다. VPG는 discrete하거나 continuous한 action space를 가진 환경에서 사용할 수 있습니다. Spinning UP 구현에서는 MPI를 이용한 병렬화를 지원합니다. 주요 방정식 $\pi_\theta$를 파라미터 $\theta$를 .. Online Tutorials/OpenAI Spinnig Up 6년 전
OpenAI Spinning Up 번역] Part 3: 정책 최적화 소개(Intro to Policy Optimization) Welcome to Spinning Up in Deep RL! 원본은 Part 3: Intro to Policy Optimization OpenAI Spinning Up 번역] Part 1: 강화학습 핵심 개념(Key Concepts in RL) OpenAI Spinning Up 번역] Part 2: 강화학습 알고리즘 종류(Kinds of RL Algorithms) OpenAI Spinning Up 번역] Part 3: 정책 최적화 소개(Intro to Policy Optimization) Table of Contents Part 3: Intro to Policy Optimization Deriving the Simplest Policy Gradient Implementing the Simplest Po.. Online Tutorials/OpenAI Spinnig Up 6년 전
OpenAI Spinning Up 번역] Part 2: 강화학습 알고리즘 종류 Welcome to Spinning Up in Deep RL! 원본은 Part 2: Kinds of RL Algorithms OpenAI Spinning Up 번역] Part 1: 강화학습 핵심 개념(Key Concepts in RL) OpenAI Spinning Up 번역] Part 2: 강화학습 알고리즘 종류(Kinds of RL Algorithms) OpenAI Spinning Up 번역] Part 3: 정책 최적화 소개(Intro to Policy Optimization) Table of Contents Part 2: Kinds of RL Algorithms A Taxonomy of RL Algorithms Links to Algorithms in Taxonomy 이제까지 강화학습 용어와 표기법에.. Online Tutorials/OpenAI Spinnig Up 6년 전
OpenAI Spinning Up 번역] Part 1: 강화학습 핵심 개념(Key Concepts in RL) Welcome to Spinning Up in Deep RL! OpenAI Spinning UP에서 강화학습을 소개하는 부분이 있었다. 오 이거 정리해두면 좋겠는데?(불행의 시작)라는 마음으로 해석에 도전했다. 강화학습 쪽 영어는 그래도 알아들을 거라 생각해서 였는데 생각보다 고통스러운 발번역의 나날...그래도 나름 최선을 다했어 난! 원본은 Part 1: Key Concepts in RL OpenAI Spinning Up 번역] Part 1: 강화학습 핵심 개념(Key Concepts in RL) OpenAI Spinning Up 번역] Part 2: 강화학습 알고리즘 종류(Kinds of RL Algorithms) OpenAI Spinning Up 번역] Part 3: 정책 최적화 소개(Intro t.. Online Tutorials/OpenAI Spinnig Up 6년 전