nozomiアピール文書暫定版 ■nozomiの特徴 nozomiの特徴は以下の点になります。 ・Stockfishベースのソフト ・Bonanzaメソッドをもとに作った評価関数の特徴ベクトルをもとに、  浅い探索の評価値を深い探索の評価値に近づけるように強化学習 これらは、多くの強豪ソフトと同一です。 独自のことをしている部分としては下記になります。 ・学習 初手から10~50手ランダムで動かした局面を初期局面とし、そこから6手読みで局面を進めながら点数をつけています。 評価値が2000点に達した時点で、探索を打ち切っています。 1回の学習に10億局面用意し、評価値の差の2乗を最小にするように学習しています。 ただ、学習が進むにつれて、単純なやり方では強くならなくなってしまいました。 なので、更新対象のパラメーターを棋譜を生成したのと別のものにしたり、 一定数ごとに元のパラメーターとの平均をとったりと、野生の勘でいろいろなことを試しては、 ちょっとでも強くなったら採用しています。 ・探索 Stockfishベースで作成していますが、細かい点で、Stockfishと異なる独自の修正を入れています。 例えば、単純にStockfishをベースにすると、終盤が弱いので、王手の場合、LMRを抑制しています。 トップの探索力を持つソフト(Ponanzaや技巧)は、終盤になっても深くまで探索できているので、 まだまだ改善の余地があると思うのですが、なかなか。 ・評価関数 今では多くのソフトが採用しているKPP + KKPですが、KKPに対して手番を加えています。 KKPは盤面全体の評価だと解釈すれば、正確に評価するには手番が必要みたいななんとなくな理由もありますが、 試してみたら強くなったのでまあいいかみたいな感じです。 ■ライブラリについて Aperyのコードや評価関数は使用していませんが、下記の実装でAperyを参考にしています。  ・Bonanzaメソッドでの学習部のデータ構造  ・Handのデータ構造  ・1手詰めの駒打ち部分 ■Stockfishの使用について 探索部はStockfishをベースに作成しています。 局面構造についても、Stockfishを参考に作成しています。