wcsc24 elmoアピール文書v1.2　　2014.3.30 瀧澤

◆ 開発方針
　学習部を中心に開発を行っています。
　KKP, KPPの評価関数に一定の制約を加えることで棋力向上を図っています。

　基本的に学習結果(param.h,fv.bin)の変更であり、一部高速化を除いて
　Bonanza v6.0のプログラムをそのまま利用しています。

◆ elmoの独自改良
　１．特徴の類似性に着目した正則化項の導入
　　Bonanzaの目的関数に新たな正則化項を追加しています。
　　正則化項は学習によって算出される評価関数に一定の制約を与え、
　　(人間的な)事前知識を埋め込むことが可能となります。

　　現時点の実装ではBonanzaで用いられている、駒の位置関係に基づく特徴について
　　「相対的な位置関係が同一」かつ「近傍に存在する」特徴の評価値が
　　滑らかに変化するように正則化項を導入しています。
　　(急峻な変化は許容し、イレギュラーな変化にペナルティをつけるようにしています。)
　　(画像処理で言うところのTotal Variationです)

　２．重要度の低いKPP成分の評価値を低減
　　Bonanzaでは 駒割、KP、KKP、KPPの特徴を評価関数に利用していますが、
　　KPPは表現能力が高い反面、特徴当たりの学習データ数が必然的に少ないために
　　重要度の高い特徴と偶然同時に発生する
　　重要度の低い特徴にも値が付く傾向があります。
　　これは重要度の高い特徴に十分な値が付かないことを意味します。

　　この問題は学習局面数等を増やすことで低減されるものですが、
　　より直接的な対処を検討します。

　　現時点の実装では学習の途中において、重要度の低いと思われる特徴(※)を検出し、
　　その評価値を低減するフィルタを適用することで、
　　より重要度の高い特徴に値をつけるように誘導しています。
　　(※) KPやKKPで十分評価可能と見なせるKPP、としています。

◆ 一言
　対オリジナルの勝率は現状4～5割程度です。

　学習棋譜数(3.5万)と探索深さ(2)で劣後しているので
　これを解消してあげれば勝ち越せると思っていますが
　今まで散々試行錯誤してきたことを考えると何とも言えないです。

　今後はもう一歩踏み込んだモデル化をしたいと思います。