GPWに行ってきました(3)−遷移確率を用いたplayoutの改良

これはポスターセッションでの発表でしたが、個人的には興味深かったです。
playoutでランダムに手を選ぶ代わりに、
・各指し手の遷移確率からルーレット式に選ぶ
・best-of-nアルゴリズム*1で選ぶ
ということを行い、best-of-128で9割以上の終局率となったということです。

この終局率は、昨年の佐藤@棋理さんの論文とほぼ同じで、アルゴリズムが簡易なだけになかなかの成果だと思います。
発表者の方とお話ししたのですが、少し気になったのは、best-of-nアルゴリズムを使うことで、playoutのランダム性が失われるのではないか、ということです。
たとえば、合法手が50手くらいの局面でbest-of-64を適用すると、遷移確率が最も高い手が常に選ばれることになってしまいます。
nが大きくなればなるほど、そうなる可能性が高くなるわけで、経験上、ランダム性が低くなるとかえって弱くなったりするので、実装するにはもう少し工夫が必要そうです*2

*1:合法手の中からn個の合法手を選び、その中で遷移確率が最も高い手を選ぶ

*2:その場では、best-of-30%ではどうか、という話も出ました