ボーナスの算入のしかた

前の記事で書いた、「残りのノードがたくさんあるなら優先度は低く、もう少しで証明が終わるなら優先度を高く」の方法ですが、UCB値にボーナスを加える方法で実装しています。
別に大した話でもないので、そのやり方について書いておきます。*1
UCB1-TUNEDの元の式はこうですが、
\bar{x}_j + \sqrt{ \min \left\{ \frac{1}{4}, V_j \right\} \frac{\log n}{T_j(n)} }
このように修正しています。
\bar{x}_j + \sqrt{ \left( \min \left\{ \frac{1}{4}, V_j \right\} + \; \mathrm{bonus} \; \right) \frac{\log n}{T_j(n)} }
bonusは0から1の値をとります。
証明数が1のときボーナスは1となり、証明数が増えるほどボーナスは減少します。

最初は、勝率のところに直接ボーナスを足しこんでいたんですが、それだと前の記事で書いたようにうまくないので、指し手を選択した回数が多ければ優先度を下げていくように、ルートの中に入れています。

*1:筆者が数式を書く機能を使いたかっただけ、という説もある