GA将!!!!!アピール文書 2012年04月28日 森岡 祐一 【今年度バージョンの概要】 - 強化学習の一手法であるTDLeaf(λ)を用いて評価関数パラメータの学習を行いました。 - 評価項目は駒割・駒の位置評価・二駒の相対位置関係の評価+細々としたものいくつか。 - 探索は普通にαβ探索で全幅ベース(枝刈りはLMRのみ)+二段階静止探索。探索の並列化は行なっていません。 - 詰将棋ルーチンも一応あります(実戦では10〜20手程度の詰みを読み切れる程度の性能です)。 - 思考時間は局面の進行度と経過手数に応じて制御しています。 - 現在の棋力は、Core 2 Duo 2コア・2.4GHzのマシンでfloodgate(※)の2週間レーティングが1424です(04月28日 15:00現在)。 ※http://wdoor.c.u-tokyo.ac.jp/shogi/floodgate.html 【今後の計画】 -複数のそれぞれ異なる評価項目・パラメータを用いた評価関数による多数決合議を実装する予定です。 -また、その為に合議で強くなる事を目的とした強化学習アルゴリズムの開発中です。 -最終的にはマルチコア・マルチプロセッサのマシン上で、シングルスレッドで探索を行う複数のクライアントにより合議を行う予定なので、クライアント間での情報共有(例えば局面の詰み・不詰み情報の共有)を行うつもりです。 -探索の改良は後回しにしますが、精度の良い評価関数が得られた場合はABC探索(※)を実装します。 ※http://www31.ocn.ne.jp/~kfend/inside_kfend/abc_search.html 【最終目標(という名の妄想)】 - 学習を成功させて、合議クライアント単体でのレーティング+1500。 - 合議でやり残した事を色々やってレーティング+500。 - デュアルプロセッサマシンを購入して、レーティング+200。 - これで、最終的には決勝クラスのソフトに追い付く予定です。