본문으로 바로가기

MCLearning's FrontEnd StudyRoom

현재위치 :: HOME BLOG CATEGORY SEARCH ARCHIVE TAGS MEDIA LOCATION GUESTBOOK

네비게이션

    관리자
    • 블로그 이미지
      MCLearning2

      강화학습에서 프론트엔드로 전향하면서 그에 관련된 내용들을 정리할 예정입니다.

      링크추가
    • 글쓰기
    • 환경설정
    • 로그인
    • 로그아웃

    Monte Carlo Prediction 검색 결과

    해당 글 1건

    강화학습 Sutton [Ch5 Dynamic Programming] #2 Monte Carlo Estimation of Action Values

    Monte Carlo Estimation of Action Values (환경에 대한) 모델을 사용할 수 있다면, DP에서 했던 것처럼 상태 가치함수만으로 충분히 정책을 결정할 수 있다. 하지만 모델을 사용할 수 없다면, 상태 가치 함수보다는 행동 가치 함수를 추정(estimate)하는게 더 좋을 것이다. 가치를 추측해서 이 가치 자체로 정책으로 사용할 수 있기 때문이다. 따라서 모델을 모를 때 사용할 이 Monte Carlo 또한 $q_\ast$를 estimate하는 것이 목표다. 그러기 위해서 먼저 행동 가치에 대해 어떻게 policy evaluation을 할지 생각해봐야 한다. Monte Carlo 방법에서는 행동 가치함수에 대해 estimate할 것이기 때문에, 상태 가치함수와 본질 적으로 같지만..

    Sutton Books/Sutton 노트 2019. 2. 19. 21:29
    • 이전
    • 1
    • 다음

    사이드바

    NOTICE

    • 전체 보기
    MORE+

    CATEGORY

    • 분류 전체보기 (49)
      • Programming (5)
        • Pytorch (3)
        • Algorithms (0)
        • HTML (0)
        • CSS (0)
        • Javascript (1)
        • Vue (0)
        • Nuxt (1)
      • Papers (0)
        • PG (0)
        • DQN (0)
        • Intrinsic Reward (0)
        • Object Detection (0)
      • Sutton Books (33)
        • Sutton 노트 (33)
      • Online Tutorials (5)
        • OpenAI Spinnig Up (5)
      • Project (6)
        • 환경설정 (6)
      • 일상 (0)

    RECENTLY

    • 최근 글
    • 최근 댓글

    최근 글

    최근댓글

    Trackback

    TAG

    • reinforcement Learning
    • importance sampling
    • TRPO
    • Sutton
    • 강화학습
    • SUMMARY
    • monte carlo control
    • episodic task
    • rl
    • e-greedy
    • openai
    • Policy Iteration
    • policy gradient
    • Monte Carlo
    • continuing task
    MORE+
    07-17 23:01
    • 홈으로
    • 방명록
    • 로그인
    • 로그아웃
    • 맨위로
    SKIN BY COPYCATZ COPYRIGHT MCLearning's FrontEnd StudyRoom, ALL RIGHT RESERVED.
    MCLearning's FrontEnd StudyRoom
    블로그 이미지 MCLearning2 님의 블로그
    MENU
      CATEGORY
      • 분류 전체보기 (49)
        • Programming (5)
          • Pytorch (3)
          • Algorithms (0)
          • HTML (0)
          • CSS (0)
          • Javascript (1)
          • Vue (0)
          • Nuxt (1)
        • Papers (0)
          • PG (0)
          • DQN (0)
          • Intrinsic Reward (0)
          • Object Detection (0)
        • Sutton Books (33)
          • Sutton 노트 (33)
        • Online Tutorials (5)
          • OpenAI Spinnig Up (5)
        • Project (6)
          • 환경설정 (6)
        • 일상 (0)
      VISITOR 오늘 / 전체
      • 글쓰기
      • 환경설정
      • 로그인
      • 로그아웃
      • 취소

      검색

      티스토리툴바