コンピュータ将棋プログラム「習甦」の主要な特徴は,評価関数の構成,学習,および活用方法にある。評価関数は,各升目における利き数を入力層,各駒の位置評価および利きの有無を中間層,勝率予測を出力層とするニューラルネットワークに基づき構成(※1)する。評価関数学習のための目的関数は,ボナンザメソッドとして広く用いられている棋譜との不一致度に加え,勝率予測と勝敗との負の対数尤度,および深さの違う探索結果に対する分散を最小化する多目的最適化問題として定式化(※2)する。この評価関数を用いたαβ探索による勝率予測を事前分布とし,棋譜データベースがある局面までは対局シミュレーションによる観測データを加味した勝率予測の事後分布をベイズ推定(※3)して,勝率の期待値が最も高い指し手を選択する。 (※1)入力層から中間層への結合荷重の共通化等により,一般的な3層パーセプトロンとは異なる。 (※2)各目的関数の重み付き線形和とし,重みは学習中に得られる情報を用いて自動調整している。 (※3)単純化した実装による試行段階であるが,今後は序盤戦略を更に重要視すべきと考えている。