考え方だけ借用

前のエントリの話、つづく。

証明数/反証数の考え方を借用しますが、とはいっても詰将棋とは違い、詰む詰まないを判定するのは主目的ではないので、
「詰みそうなノードには、多めにplayoutを割り当てる」
という基本方針でいこうと思います。

あるノードの子ノードに全て勝ちフラグが立っていれば、そのノードは負けノードになるので、子ノードの中に勝ちノードを見つけたら、親ノードに「playoutをもっとくれ」という情報を渡します。
親ノードはそれを見て、さらに親にも情報を伝えると同時に、UCB値にボーナスを与え、playoutを多めに割り当てるようにします。
また、残りの(勝ちノードであることを証明しなければならない)ノード数に応じて、playout数の割り当てを変化させるようにします。
(残りのノードがたくさんあるなら優先度は低く、もう少しで証明が終わるなら優先度を高く)

頭の中では設計は固まってますが、今週末は将棋から離れるので、実験したらまた書きます。