강화학습 sutton ch2 Multi-armed Bandit] #5
이번 챕터는 우왁... 이전에 봤을 때는 이런게 있었나 싶은데 엄청난 수학이 밀려온다. 그냥 그러려니하고 보고 빨리 다음 장으로 넘어가야지... Gradient Bandits 지금까지는 행동 가치를 추측하고 이를 이용해서 행동을 선택하는 방법에 대해서 다루었다. 좋은 방법이긴 하지만 다른 방법들도 있다. 그 중 하나인 우선순위(preference) $H_t(a)$에 대해서 다룬다. 그래서 이 우선순위를 가지고 행동을 선택하는 데 그 중 하나는 softmax 분포로 결정하는 것이다. 여기서 새로운 표기 $\pi_t(a)$이 등장한다. t 시점에서 행동 a를 할 확률을 의미한다. softmax를 계산하게 되면 확률이 나오기 때문에 이를 이용한 것이다. 초기에 확률을 동일하게 주기 위해서 모든 우선순위는 동일..