●2016.5.12追記  今回のバージョンでは、Logistello や AlphaGo 風に、自己対戦によって 評価関数の学習を行ってみました。手法は単純で、 1. 一局数秒から数十秒で終わる浅い探索で自己対戦棋譜を多数作成する。 2. 各棋譜から10局面程度ランダムにサンプリングする。 3. 各局面の特徴ベクトルから勝敗を予測するロジスティック回帰モデルを   SGD (batchsize = 1000) で学習する。 となっています。従来手法である、プロ棋士の棋譜を用いた指し手の比較学 習(ボナンザメソッド)との対戦では、自己対戦棋譜の量が100万局程度で ほぼ互角になるようです。また、比較学習の際には、学習時にも探索を行っ てその末端局面を利用していましたが、今回の学習手法では学習時の探索の 効果はあまり大きくないようです。  長時間の対局でも本当に強くなっているかの検証はまだできていないです が、中盤以降の指し手や評価値を見る限り、ある程度強くなっているように 見えます。ただ、一般に損だと言われている角換わりでの早繰り銀を多用す るようになるなど、序盤の指し方については問題があるかもしれません。 -------------------- 探索アルゴリズムは、局面の実現確率を打ち切り条件に利用することで、人 間のエキスパートの思考法と似た狭くて深い探索を実現しています。ロジス ティック回帰モデルを利用して局面の遷移確率の推定を行うことで、探索の 有効分岐数は、約2〜2.5程度におさまっており、比較的短時間でも20手以上 先の局面を読むことができます。 評価関数の学習には、平均化パーセプトロンをベースにした手法を用いてお り、高速な学習が可能になっています。これにより、学習時に、比較的深い 探索(現在は基本深さ8)を行いながらパラメータの最適化を行うことが可 能になっています。 激指の実装および上記の手法の詳細は以下の文献に記述されています。 [1] 鶴岡 慶雅, 「激指」の最近の改良について―コンピュータ将棋と機械 学習―, 松原仁編, コンピュータ将棋の進歩6, 共立出版, 2012 [2] 横山 大作, 「激指」におけるゲーム木探索並列化手法, 人工知能学会 誌 Vol.26, No.6, pp. 648--654, Nov. 2011. [3] 鶴岡 慶雅,将棋プログラム「激指」,松原仁編, コンピュータ将棋の 進歩4, 共立出版, pp. 1-16, 2003 [4] Yoshimasa Tsuruoka, Daisaku Yokoyama, and Takashi Chikayama. Game-tree Search Algorithm based on Realization Probability. ICGA Journal, Vol. 25, No. 3, pp. 145-152, 2002