モンテカルロどうぶつしょうぎ

GA将!!!さん経由で。

http://d.hatena.ne.jp/tihara/20090415#p1
http://d.hatena.ne.jp/streakeagle/20090415/1239799105


UCTを使わず、原始モンテカルロの改良で作られているようです。
モンテカルロ将棋でも、playoutの精度を上げる手法がいちばん悩ましいところですが、この手法では、playoutの結果によって、指し手の特徴に対する評価を決めていくところがミソだと思います。


この辺のパラメータは、ym将棋では手打ちで、棋理の佐藤さんはEloレーティングで決められているようですから、モンテカルロ将棋では(私の知る限り)はじめての試みじゃないでしょうか。
ただ、本将棋で試みるとすると、移動元や移動先のマスを特徴にとったのではデータ量がすさまじいことになるので、改良の余地がありそうです。
選手権が終わったら試してみたいです。


以下、ちょっと気になった点を。

なお、プレイアウト数が増えてくると、探索空間が狭いので、終局のパターン数が非常に少なくなってしまい、(実感できる)強さと勝率の間に隔たりが生まれる。

これはGA将!!!さんのコメント通り、playoutを偏らせていることが理由のような気がします。
ym将棋でも、progressive wideningを導入した時にいろいろ試したのですが、playoutをあまり偏らせすぎて指し手が固定してしまうと、モンテカルロの意味が失われてしまうので、かえって弱くなるようです。

また、三手詰めくらいならば100000プレイアウトくらいで読んでくれる(詰んだあとにこちらが自殺手を指してコンピュータがそれをとるというところまで読む必要があるので、五手読んでいる)。

必要なplayout数は、以前書いた確定勝利優先アルゴリズム(+UCT)の導入で、劇的に減りそうですね。
どうぶつしょうぎなら、数百playoutで5手詰め、いや7手詰めぐらいいけるかも??