名人コブラアピール文書 ・ソフト名 名人コブラ ・使用ライブラリ やねうら王 Apery (評価関数の初期値として) ・工夫したこと 1. 探索パラメータの自動調整 HyperBandというバンディットアルゴリズムを応用した手法を使用しています ランダムでハイパーパラメータの組み合わせをたくさん用意し、 うまくいかなそうなものは切り捨てながら、テストの反復回数を増やすことで 全体として少ない試行回数で最適なものを選び出そうという手法です 2. 評価関数パラメータの学習方法 最近、一部で話題となっている進化戦略(Evolution Strategies)を 実装しておりますが、うまくいかないので、変更する可能性があります 親となるパラメータにランダムでノイズをのせ、うまくいったものを 新たな親として世代を重ねる事により、パラメータを改良していこうという 方法です 以上