ボーナスの算入のしかた
前の記事で書いた、「残りのノードがたくさんあるなら優先度は低く、もう少しで証明が終わるなら優先度を高く」の方法ですが、UCB値にボーナスを加える方法で実装しています。
別に大した話でもないので、そのやり方について書いておきます。*1
UCB1-TUNEDの元の式はこうですが、
このように修正しています。
bonusは0から1の値をとります。
証明数が1のときボーナスは1となり、証明数が増えるほどボーナスは減少します。
最初は、勝率のところに直接ボーナスを足しこんでいたんですが、それだと前の記事で書いたようにうまくないので、指し手を選択した回数が多ければ優先度を下げていくように、ルートの中に入れています。
*1:筆者が数式を書く機能を使いたかっただけ、という説もある