'VPG' 태그의 글 목록

OpenAI Spinning UP 번역] Vanilla Policy Gradient

OpenAI Spinning-up : Vanilla Policy Gradient Spinning up 코드 관련한 내용은 제외합니다. 배경지식(Background) (이전 내용 참조 : 강화학습 소개 파트 3) policy gradient의 핵심 아이디어는 최적의 정책이 될 때까지 return값을 더 높게 만들어주는 행동의 확률을 올리고, return값을 낮게 해주는 행동의 확률을 줄이는 것입니다. 빠르게 알고갈 사실 VPG는 on-policy 알고리즘입니다. VPG는 discrete하거나 continuous한 action space를 가진 환경에서 사용할 수 있습니다. Spinning UP 구현에서는 MPI를 이용한 병렬화를 지원합니다. 주요 방정식 $\pi_\theta$를 파라미터 $\theta$를 ..

Online Tutorials/OpenAI Spinnig Up 2019. 3. 10. 17:09

MCLearning's FrontEnd StudyRoom

VPG 검색 결과

OpenAI Spinning UP 번역] Vanilla Policy Gradient

티스토리툴바