wcsc24 elmoアピール文書v1.2  2014.3.30 瀧澤 ◆ 開発方針  学習部を中心に開発を行っています。  KKP, KPPの評価関数に一定の制約を加えることで棋力向上を図っています。  基本的に学習結果(param.h,fv.bin)の変更であり、一部高速化を除いて  Bonanza v6.0のプログラムをそのまま利用しています。 ◆ elmoの独自改良  1.特徴の類似性に着目した正則化項の導入   Bonanzaの目的関数に新たな正則化項を追加しています。   正則化項は学習によって算出される評価関数に一定の制約を与え、   (人間的な)事前知識を埋め込むことが可能となります。   現時点の実装ではBonanzaで用いられている、駒の位置関係に基づく特徴について   「相対的な位置関係が同一」かつ「近傍に存在する」特徴の評価値が   滑らかに変化するように正則化項を導入しています。   (急峻な変化は許容し、イレギュラーな変化にペナルティをつけるようにしています。)   (画像処理で言うところのTotal Variationです)  2.重要度の低いKPP成分の評価値を低減   Bonanzaでは 駒割、KP、KKP、KPPの特徴を評価関数に利用していますが、   KPPは表現能力が高い反面、特徴当たりの学習データ数が必然的に少ないために   重要度の高い特徴と偶然同時に発生する   重要度の低い特徴にも値が付く傾向があります。   これは重要度の高い特徴に十分な値が付かないことを意味します。   この問題は学習局面数等を増やすことで低減されるものですが、   より直接的な対処を検討します。   現時点の実装では学習の途中において、重要度の低いと思われる特徴(※)を検出し、   その評価値を低減するフィルタを適用することで、   より重要度の高い特徴に値をつけるように誘導しています。   (※) KPやKKPで十分評価可能と見なせるKPP、としています。 ◆ 一言  対オリジナルの勝率は現状4〜5割程度です。  学習棋譜数(3.5万)と探索深さ(2)で劣後しているので  これを解消してあげれば勝ち越せると思っていますが  今まで散々試行錯誤してきたことを考えると何とも言えないです。  今後はもう一歩踏み込んだモデル化をしたいと思います。