◆コンピュータ将棋Seleneアピール文書 [強化学習を採用] ・指せば指すほど強くなる(!)学習方式。 自己対戦を行って勝ったほうの棋譜を学習します。初めはルール覚えたての人が指したも のよりもヒドイ将棋なのですが、何度も何度も指すことで「なにが有効であるのか」とい うことを学習し、駒を玉に向かわせたり、玉のまわりに防衛用の駒を近づけたりしていき ます。 数万局の単位で学習しっぱなしにしておくと、学習値にもそれなりの値が設定され、負け た指し手は指さなくなってくるので、リクツで言えば無限に強くなっていく!はず。 と、いったことで、将棋というすべての情報が公開されているゲームにおいてはアルゴリ ズムがすべてですので、プロ棋士の棋譜の力を借りることなく、コンピュータ上で試算を 繰り返せば最強と成りえます。 ともかく、勝った手を指して、負けた手を指さなければいいので簡単簡単! ・しかし問題が・・。 そうなんでけども、話としてはそうなんですが、強化学習を行っていると、人間が指す場 合には後の展開の構想を持って指していることにものすごく早く気づきます。 Seleneが行っている強化学習方式で発見できた戦法は、棒銀や腰掛銀、美濃囲い。発見で きなかった戦法のうちイタイものは穴熊、中飛車です。 Selene本体というか開発者が将棋にあまり詳しくないので、さらに致命的なものがあるの だと思います。イタタタ。 例えば穴熊の場合、いったいどこまで対局を続けたら発見できるのか?などと考えると人 間の創意工夫や構想能力がどれだけすごいか思い知る展開に。 ・だったらどうするの? ※注意:どの封印を解いてしまうかについては現在もまだ考慮中で、並列的に学習を行っ ています。 封印開放度:S 序盤・中盤に関しては定跡データを使用して学習する!!! じゃあ、普通にプロ棋士の棋譜から学習すればいいじゃん。と、いう感じですが、いやい や、最初のところだけですよ!と、いくら言ったところで「いったいどーゆーこだわりだ よ」とか思われそうなんですが、強化学習独自の「指せば指すほど〜」のくだりは残って ますので(汗) 封印開放度:A 他の将棋プログラムとの対局を学習する!!! これは間接的にプロ棋士の棋譜から学習してるんじゃ・・。と、思ったアナタ。その通り です。プロ棋士の棋譜をマネている棋譜をマネるので、よくわからないことに。 じゃあ、普通にプ(略) 封印開放度:B 学習を行いたい戦型に誘導してから対局をはじめる!!! 例えば、58飛+αを指させてから優しく見守ると、強引に中飛車についての学習が行えま す。やはり人間の操作が入りますので、(略) とか、いろいろありますが、定跡データ使っていいですか?いやもうほんとに〜。 (誰に了解を求めているのか不明) [探索も試算して決める] ・探索のアルゴリズムが多すぎる! 将棋よりもチェスを行うプログラムが先行していましたので、チェスプログラム関連のサ イトに行くと、ヤバイくらい大量のアルゴリズムが紹介されています。 ひとつのアルゴリズムについても亜流とも言うべき方式があり、さらにアルゴリズム中に 使用されている数値に関しては、それはもう、さまざまです。 ・最良の探索アルゴリズム決定戦! 「futility pruningのマージン値はどのくらいにしようかなあ。うーん。とりあえず256 でやってみるか〜」という経緯で、プログラマー的にキリの良い数値である256ではじめ てみて、少しづつ値を変えて良さそうな値にする。と、いうようなことをアルゴリズムの 数だけ試すなんてことは、とーてーつーもーなーく大変ですので、これも機械にやらせて しまおう。という試みです。 まずは目についたアルゴリズムはぽんぽん追加します。その後、それらアルゴリズムをス イッチでON/OFFできるようにしておきます。また、使用している数値は後から変更できる ようにします。 この状態で評価関数を固定とし、ランダムにON/OFF、各種数値を決定したプログラム達を 互いに戦わせ、勝ち残ったアルゴリズムセットを採用とします。 ※実際には完全にランダムではなく、勝ったプログラムからのしきい値以内での修正や、  ある要素だけランダムにする。などの操作を行っています。 1vs1のサシで戦わせると、本当に強いのかどうか疑わしいのでリーグ戦方式で複数のプロ グラムで競わせます。 将来的には本当の将棋の順位戦みたいにして名人とは7番勝負!とかやると面白いんです けど、そこまで手がまわってないです。 [目標] 選手権前なのに今後の目標(反省会)という、斬新な感じ。 目標は、人間のように学習して、人間のように探索したい!ということです。 教師あり学習よりも強化学習のほうが人間らしいのではないか。という個人的な思いによ り採用してみたけど、まだまだ発展途上。 「あー、これだとダメだったかあ」「こうしたらうまくいった!」という部分はマネでき ても、将棋における構想部分がぜんぜんマネできません。 探索についても、私のメインリソースであるNHK将棋対局の解説を観ていると、どうやら 部分的には同じだけれど、評価観点が異なります。 うまいこと評価項目に取り入れて、強くなればいいなあ。と、あれこれお試し中。