GAN将棋アピール文章 暫定 大渡勝己 2017/3/31 ゲームAIで用いられる教師あり学習としては ・(状態, 行動)対からの方策の学習 ボナメソとか ・(状態, 推定価値)対からの価値の学習 主に勝率の回帰 が ありますよね しかし(状態)集合だけから学習することだってできるんじゃないかというのが 私の思いつきです 私の思いつき というより Generative Adversarial Network において 方策関数を次の状態の生成モデル、価値関数を判別モデルとすれば 教師の局面っぽい次局面を生成できる方策関数が学習できるはずです まあ教師局面の状態の状態価値を +100 そうでない局面の状態価値を -100 に回帰するのをさらに不安定な形でやるようなものなので、 学習をうまく回すのは相当大変だと思います 実際には去年の構想は全く実現しなかったので(5月まで何もやってなかったので)今年も望み薄ですかね やる気がでなければ電王トーナメントのときのSibling Conspiracy Number Searchで お茶を濁したいと思います