自己対戦と自他対戦

昨日書いた手法で学習中です。
3駒間の位置関係となると、さすがに3000局くらいでは出現回数が少なくて値が付かないパターンが多いので、もう少しやらせてみます。


1時間に100局というのは自分でも遅いなあと思うんですが、これは仕組みの問題もあると思います。
本来は自己対戦専用の処理を作るべきなんでしょうけど、その余裕がなかったので、ダミーのym将棋を用意して、将棋所で対戦させて学習しています。
この仕組みには、対戦相手が誰でもよいという副産物がついてくるので、Bonanza3.0と対戦させたりもしています。*1
ところが、お互い全幅1手+静止探索でやらせても、静止探索の性能が段違いなので、終盤まで優勢に進めていても、最後の最後にBonanzaに詰みを見つけられて、逆転負けを喫することが多いのです。
これだと、位置評価の学習としては、途中まで優勢だった状況が、最後の数手で逆転されたがために「負け」として記録されてしまうため、あまりうまくないわけです。


以前書いた高速1手詰めルーチンの話も、この状況を何とか改善しようと思ってのことですが、3手詰めルーチンとなると重くて乗せられません。。
やっぱり自己対戦か、少なくとも評価関数以外は同水準の相手が妥当なのかなあと思ったりしています。
原論文でも自己対戦ですし。

*1:Bonanza3.0と対戦させると、1時間に200局くらいいきます。それでも遅いですが…