大将軍 アピール文書 前回出場(N4S)においては、盤上の4駒の位置関係をもとに、評価関数を学習していました。 しかし、昨年参加した第3回将棋電王トーナメントにおいては、使用PCのメモリ容量の削減され 4駒関係を利用することが困難となりました。このため、4駒関係の学習をいったん保留し、 3駒関係に限定して一から学習をすることとし、大将軍の名前を復活させることにしました。 大将軍では、3駒の位置関係までに限定して、形勢を評価する形となりますが、 3駒の評価関数においても、まだまだ最適化の余地があると考えられます。 4駒の関係を学習する場合、メモリ消費量が多く、学習結果の保存などにおいても、 リソースが必要となります。また、学習の改善に対する効果の確認ために必要な、 自己対戦による勝率計算もリソース不足により困難となっていました。 電王トーナメントのレギュレーション変更により、いままでの学習成果を リセットする形となりましたが、評価まわりの動作を軽くすることで リソース不足を解消し、ターンアラウンドタイムを改善することで、 開発スピードの向上させることができました。 評価関数の特徴としては、基本的な3駒の位置関係に加え、 ・駒の位置関係の相対位置による評価 ・利きをまとめて学習 ・手番の学習 を評価項目に入れています。 学習方法としては、 ミニバッチによる学習を採用しています。 自己対戦が可能となりましたので、マルチスレッドによる同時並行の自己対戦ツールを 作成しました。これにより、短時間で改善の効果の確認が可能となりました。 現在は、学習から評価までを2〜3日ほどで完了し、改善の有無を判断しています。