學而樂: Softmax action selection

reinforcement learning에서, $\epsilon$-greedy action의 단점은 가장 높은 Q값 이외에 나머지를 exploration할 때 각 Q값을 고려하지 않는다는 점이다. 그래서 나머지에도 가중치를 부여해서 확률에 따라 선택하게 하는 것이 softmax action selection.
가장 common한 것은 Gibbs distribution.(=Boltzman distribution)
$$
\frac{ e^{Q_t (a) / \tau } }{\sum_{b=1}^n e^{Q_t (b) / \tau }}
$$
$\tau$는 양수이며 온도(temperature)라 불린다. $\tau$가 높으면 나머지가 equi-probable해지고 낮으면 각 선택지의 확률차이가 커진다. $0$에 가까워지면 $\epsilon$-greedy와 동일해진다.
Softmax가 노리는 효과는 다른 방법으로도 달성될 수 있는데 $Q_t (a)$에 임의의 작은 값들을 더하는 것이다. (본인 주: 정확히 같은 효과라기보다 선택지들을 선택할 때 uniform distribution을 따르지 않도록 만든다는 뜻인듯)
$\epsilon$-greedy와 softmax중에 무엇이 더 ‘좋은’ 방법인지는 알려져 있지 않고, task에 따라 다르다. 둘 다 변수를 하나만 조절해야 한다($\tau$ or $\epsilon$)는 점은 같다.

원문은 이 책의 2.3챕터
Original text is in chapter 2.3 of this book.
Pdf file can be easily got from google search.

pursuit method는 softmax보다 더욱 강화된 형태. 예를들어, softmax를 이용해서 probability가 조정된 상태에서 다시 Q$_{max}$에 대해 확률값을 더 키워준다.

學而樂

2015년 4월 2일 목요일

Softmax action selection

댓글 없음:

댓글 쓰기