棋譜からの学習、再考：千里の道も一歩から：So-netブログ

	ブログをはじめるログイン

Twitterまとめ投稿 2015/01..｜Twitterまとめ投稿 2015/01.. ブログトップ

棋譜からの学習、再考　[将棋] [編集]

結構前だが、Bonanza 6.0の学習ルーチンを動かすだけ動かしてみようと思ったことがあった。
なんでそう思ったのかは今となっては思い出せないが、きっとLS3600さんのBlogを見ていたのだと思う。

で、保木さんから聞いたと言われる方式を前にやってみたのである。

learn ini 32 -1 -1 8 8

学習は２つのPhaseにわかれている

・Phase1
　棋譜から学習するべきデータを作る
　その際に探索も行い、PVリストを作成しtmp.binに保存される

・Phase2
　Phase1で作成されたtmp.binを元に、評価関数のパラメータを変化させる
　全部終わったら、ペナルティで補正をかける
　元の評価関数に展開する

ループの時はPhase1に戻る

という動きをするが、Phase2のときに、1スレッド当たり３００MBぐらい消費する。（FV.BINのサイズ）
並列で処理するために、保木さんのコマンドである８を指定すると、３００＊８で２GB以上確保しようとするが、処理系によってはメモリ確保エラーで落ちてしまう。

というのをまとめるのが面倒で、Tweetしてたら、本家にメモられていたｗ

http://d.hatena.ne.jp/LS3600/20091130/p1

なんか見覚えあるななんて思ってたら、自分だった。

というわけで、急に思い出したので、~~１０００局ほど~~学習させてみた
一局でした。

  Iteration 001
  Parse 1  done
   Number of Games : 1
   Total Moves     : 10919
   Moves Counted   : 1366
   Illegal Moves   : 0
   Nodes Searched  : 914644
   Max pos_buf     : 1801
   Prediction ()  : 32.17 57.39 70.43 78.26 84.35 88.70 92.17 92.17
   Target          : 0.030882 (0.004179)
   Futility        : misc=385 drop=236 cap=675 mt=1000 misc(k)=672 cap(k)=680
  Parse 2
   Moves Counted   : 1366
   Objective Func. : 515.61111712 0.03088198 515.58023514
   Steps ................................ done

１０００局ぐらいだとあっという間におわってしまった。あんまり早く終わったので用意したデータが悪いのかもしれない。プロファイラで見てみると、学習後の再展開処理が４割を占めるという、あまり意味のない学習だった。あんまり一瞬で終わったので、これがんばって４万局ぐらい集めて学習すれば俺も作れるようになるんじゃね？と思ったのだが、サーチデプス２のままだったので、３にしたらまた時間かかるのだろう。

Number of Gamesが局数で、１，つまり一局しかやっていなかったので、学習後の再展開ルーチンの負荷のほうが大きかっただけだった。実際再展開はテーブル全部に対して再計算を行うために高コストではあるが、一番負荷が高いのはPhase1の学習時における評価コストであった。

Blunderは開発時は４とかにして学習させていたというのをどっかで見た。
学習時の評価の精度が高ければ高いほどよいのだろうが、時間とマシンパワー（というか金）が必要になる。

それはともかく、Predictionは上記のようになっている。

ここで、やねうら王Blogを思い出した。

http://yaneuraou.yaneu.com/2014/12/18/%E5%B0%86%E6%A3%8B%E3%81%AE%E6%8E%A2%E7%B4%A2%E7%A9%BA%E9%96%93%E3%81%AE%E5%BA%83%E3%81%95%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/

やねうら王では探索をしない場合、プロの棋譜との指し手一致率は、以下のようになっています。

Prediction(%) = 43.5828, 64.8331, 75.9408, 82.7774, 87.3075, 90.4403, 92.6531, 94.2629, 95.4584, 96.3543, 97.0501, 97.5901

Bonanzaの一致率と比較していいと仮定する。
Stockfishでは３手ぐらいまでの有望な手でカットが始まることを考えると
最初の３つの％が深い探索に影響をあたえると思われる。

前々から人間でいう「一目」がここら変のことだと勝手に思っているのだが
一致率で見てみると、１０％～５％ぐらい差がある

また、深く読んでもBonanzaはやねうら王に比べて５％は多くミスをするということであり、
１００手で決着がついたとしてその半分の５％＝２、３手は悪手を挿すことになる。

これがレーティング２００以上の差と考えてよいのだろうか。
Nozomiの棋譜をちょっと確認してみたが、評価値そのものはBonanzaのもののようで、まじめにBonafish作ればR2800ぐらいになるだろうということがわかった。

そこからR200以上上乗せするには評価関数そのものの精度を上げる必要がある。
というのが今の結論なのだが・・・

http://yaneuraou.yaneu.com/2014/12/23/kpp%E3%81%A7%E3%81%AF%E5%B7%A6%E5%8F%B3%E3%81%AE%E5%AF%BE%E7%A7%B0%E6%80%A7%E3%82%92%E8%80%83%E6%85%AE%E3%81%99%E3%82%8B%E3%81%A8%E5%BC%B1%E3%81%8F%E3%81%AA%E3%82%8B%EF%BC%81%EF%BC%9F/

これによるとNDFのKPP相対をやねうら王では採用していて、８コアマシンで収束に一ヶ月かかるようだ

この間のツイートでAperyの平岡さんは１２月の電気代が８０００円だったという。
一人暮らしでかつ家にほとんどいない風なので、８０００円はほぼ５９６０Xの電気代だろう。

家族がいるPonanzaの山本さんは３万円だったという。
家に人がいると暖房を使うので、それだけで１万円ぐらいはあるとしても２万円分ぐらいは電気代だろうか。

＜追記＞
すでにLS3600の２００９年のエントリにも同じことが書かれている。
また、なのはのかずさんの試算によれば月３０００円はかかるとのこと。
＜追記終わり＞

というのがあって、此処から先は覚悟がある人の領域なので現状はやる気が起きていない。
左右対称KPP相対とか、いろいろ試してみたいのだが・・・

＜追記＞
左右対称は元からありまぁす
これについては後日書く。

2015-01-09 00:47 nice!(2) コメント(0) トラックバック(0)
共通テーマ：パソコン・インターネット

nice! 2

コメントを書く

トラックバック 0

Twitterまとめ投稿 2015/01..｜Twitterまとめ投稿 2015/01.. ブログトップ

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

RSS1.0 | RSS2.0

千里の道も一歩から

棋譜からの学習、再考　[将棋] [編集]

nice! 2

コメント 0

コメントを書く

トラックバック 0

woodyring さん

カレンダー

記事検索

Twitter

カテゴリー

最新記事一覧

最近のコメント

読んでいるブログ（RSS）

Google-Analytics

千里の道も一歩から

棋譜からの学習、再考 [将棋] [編集]

nice! 2

コメント 0

コメントを書く

トラックバック 0

woodyring さん

カレンダー

記事検索

Twitter

カテゴリー

最新記事一覧

最近のコメント

読んでいるブログ（RSS）

Google-Analytics

棋譜からの学習、再考　[将棋] [編集]