コンピュータ将棋の課題 [将棋]
年に二人程度しかなれない現役のプロ棋士と戦ってより鮮明に課題がわかったと思う
■電王戦ルール
http://ch.nicovideo.jp/denousen/blomaga/ar25341
各4時間ということ。
後で述べるが先読みするためにはかなりの時間を要するのでこの4時間をどう使うかが鍵となる。
こういう大会はコンピュータ側は慣れていないので、これからノウハウができてくると思われる。
■別プログラムによる検討
プチ将棋を使って、Bonanza 6.0およびGPSFish(GPS将棋)でも検討した。
設定は基本的に60秒2スレッドなのであまり深く読んでいない。
後で将棋所+GPSFishでも検討してみた。
■15手目 9六歩をどう評価するか
プロ棋士の場合、横から玉に迫られた時に上に逃げられるというアドバンテージができるというのを理解している。
コンピュータは、玉の周りの駒組みと、コマの当たり(飛車角の先に敵ごまが当たっているか)などで判断するので、この手は緩手(ヌルい手)に見える。
そもそもこの形のときに、人間なら必ず左側に玉を動かすとわかっているが、コンピュータはそう判定できない
将棋全く知らない人にはこの手の意味はさっぱりわからないと思うし、自分もわからないというかこの手を打てないが、年二人しかなれないプロ棋士が選ぶ手なのでやはり一般人は理解できない。
Bonanzaでの解析でも、この手とその後の9五歩はヌルいと見て、中盤まで後手有利との判断をしている
マイナスは大きいほど後手有利。19手まで読んだところ、4二玉が有望だったが、7四歩を最後の最後で選んだ。
Bonanza
△7四歩(73)
+56 [ 1] △7四歩(73)
+56 [19] △4二玉(51)
GPSFish
△7四歩(73)
-4 [21/30] △7四歩(73)
検討段階でも端歩を受けるということはやらない模様。確かに60手とか先の話になるのでそれぐらい読める状況じゃないと読まないだろう。
東大将棋の人?がこの点は知ってたようで、端歩はコンピュータ将棋の弱点らしい。
■34手目 6五桂
解説の阿久津七段は人間は選べないと言っていたが、プロなら選ばない手とおもわれる。(逆に素人同士ならありうる)
なぜこれがありえないかというと、ここまでの展開は相手の手を読みながら「対応してくるようだったら仕掛けず」という展開だが、ここで桂馬を飛んでしまうと「やったからには勝ちきる必要がある」将棋に変わるから。
直前の阿部四段の3七桂はハチワンダイバー的には拳銃に弾丸を仕込む手で、この6五桂は撃ってしまった手といえる。
ただ、この後の攻めは素人目にはやばいんじゃないかという感じはしたが、うけ間違いをしないプロはさすがだと思った。
GPSFishは以下のように17手読むと6五桂だが、18手読むと4四歩というようにコンピュータにとっては絶妙のバランスだと思われる。
GPSFish
△4四歩(43)
-193 [19/31] △4四歩(43)
-151 [18/31] △4四歩(43)
-229 [17/30] △6五桂(73)
Bonanza
△4四歩(43)
-61 [16] △4四歩(43)
追記
ここでルールを思い出してみると持ち時間が2時間だか3時間ぐらいなので100手で決着をつけるとしても平均で1~2分しかかけられない。とすると、18手ぐらいしか読めないので、まさに上記の6五桂か4四歩かというところで時間的な制約が働いてしまう。
持ち時間が4時間なので、100手以内には終わるだろうと予想すれば、2.4分。150手以内に終わるとすれば、
1.6分。200手以内だとすれば1.2分と以外に短い。
GPSFishによる局面と検索時間は以下のようであった。
17手 0:30 463万局面
18手 1:28 1400万局面
20手 3:41 2700万局面
21手 5:37 5350万局面
22手 8:15 7766万局面
23手 14:15 1億3273万局面
150手以内だと思うか、200手以内だと思うかで6五桂をやるかどうかが決まる。
GPSFishは深く読むと6五桂はやらないので無理筋だと思っていると思われる。
もし時間的制約があるのなら、絶対に勝てる確信がない限り後が無い6五桂は捨てて、4四歩を選ぶようにするとか、工夫がないとこの局面は改善できない。
ただ、来週以降出てくるコンピュータ側はクラスタリングをして局面を読むスピードをかなり上乗せしているはず。特にGPSにいたっては640台クラスタで出してくるので、今回のような展開にはならないと思われる。
持ち時間が無くなったら30秒モードで読むようなプログラムを組んでいるわけでもなさそうなので、安全に150手ぐらいで挑戦し、時間配分的な問題で6五桂を打ってしまったのかもしれない。
■62手目 4二金
6五桂のように攻めの手を打ったにもかかわらず、攻めの手よりも守りの手が出るというのは完全に読み間違いなのでコンピュータの負けを確信。
駒損している上に、やる手が無くなったことになる。
将棋は基本的に攻める場合は相手の玉型を悪くする代わりに手駒を渡すことになる(駒損)。
この段階だと駒損しているのに、相手の玉を詰ませられないので手がない。
どうもこの手自体は2五桂を意識した守りの手だが、プロからみれば緩手。
この後はプロが着実に攻めを繰り出していく。
などと言ってはみたものの、素人目には先手が悪いように見えたりもするのだが。
プロが確実に真綿で首を締めるように準備を整える一方でコンピュータはやることがないので、成りで点数を稼ぐなど完全に敗戦モード。思い出王手ならぬ思い出角成り。
やる手がなくなって銀を狙いに行ったあたりで、コンピュータも先手有利に判定が傾いていった。
Bonanza
△8四歩打
-182 [15] △8四歩打
GPSFish
△6八成桂(57)
-209 [15/28] △6八成桂(57)
どっちも8八角成が無理筋とみて、別の方法を模索している。ということなら15手目の9六歩を咎めなければいけない。とすると62手目なので、62-15=47手読む必要がある。
では47手読んだら端歩をうけてくれるのかとおもったが、プチ将棋は20手以上設定できない模様。残念。
■端歩の効果
仮に端歩をうけていたらどうだろうか。局面編集を行い、9六歩に対して9四歩と受けた場合の局面を評価してみたところ以下のようになった。
GPSFish
△8四歩打
-497 [15/28] △8四歩打
Bonanza
△8八角成(44)
-314 [16] △8八角成(44)
Bonanzaは角なりでいけると判断。GPSFishはまだ無理筋と判断。
ではさらにそもそも端歩をつかなかった(玉の逃げ道がない状態)だったらどうだろうか。
GPSFish
△6八成桂(57)
-819 [16/30] △6八成桂(57)
Bonanza
△8八角成(44)
-826 [17] △8八角成(44)
端歩をついているかどうかで、スコアで500もの差が生じていた。
端歩をついてあることで先手が有利になる事自体は判定できているが、これを序盤に反映できるかというのがひとつの課題だと思われる。
■Bonanzaではどうだったか
Bonanzaに読ませてみると、2五桂をしきりにやろうとしていたが、プロはそうせずに差をじわじわと広げていった。やはり突撃するときは勝てるか確実な駒得が見込めるときでないといけないということだろう。ここらへんの評価ができないと人間には苦労すると思われる。
で、現状だと局面を読まない能力が必要というような意見も見受けられるが、話はそう簡単ではない。
そもそもコンピュータ将棋の歴史は以下の様な感じになっている
・将棋がわかっている人がよさそうな手を打つようにプログラミングする
・Bonanza登場
・将棋がわかっていない人が、適当なルールを設定して、コンピュータにルールの上下関係を学習させる
この後、GPS将棋では、将棋がわかっている東大生がプログラムすることで、ルールをさらに複雑化させて翌年優勝したり、学習能力を強化するなど、学習方法に多様性が見られる。
そもそも機械学習だけではなくて、他の方法と組み合わせることでブレークスルーが起きることをBonanzaが結果として出したことが大きい。
なので、ここで読まないことというようなことはそう簡単ではない。
■ルールへの対応
プロとコンピュータどっちもちゃんと読めるように互いに持ち時間4時間だったが、何手で決着を付けるかということを考えるかどうかで、中盤の読み筋が大幅に変わる。100手ぐらいで勝負が決まるとすると、一手2分ちょっとで読まないといけない。考えるべきところとそうでないところの判断をするかどうかというのも電王戦では必要な要素だろう。
■電王戦ルール
http://ch.nicovideo.jp/denousen/blomaga/ar25341
各4時間ということ。
後で述べるが先読みするためにはかなりの時間を要するのでこの4時間をどう使うかが鍵となる。
こういう大会はコンピュータ側は慣れていないので、これからノウハウができてくると思われる。
■別プログラムによる検討
プチ将棋を使って、Bonanza 6.0およびGPSFish(GPS将棋)でも検討した。
設定は基本的に60秒2スレッドなのであまり深く読んでいない。
後で将棋所+GPSFishでも検討してみた。
■15手目 9六歩をどう評価するか
プロ棋士の場合、横から玉に迫られた時に上に逃げられるというアドバンテージができるというのを理解している。
コンピュータは、玉の周りの駒組みと、コマの当たり(飛車角の先に敵ごまが当たっているか)などで判断するので、この手は緩手(ヌルい手)に見える。
そもそもこの形のときに、人間なら必ず左側に玉を動かすとわかっているが、コンピュータはそう判定できない
将棋全く知らない人にはこの手の意味はさっぱりわからないと思うし、自分もわからないというかこの手を打てないが、年二人しかなれないプロ棋士が選ぶ手なのでやはり一般人は理解できない。
Bonanzaでの解析でも、この手とその後の9五歩はヌルいと見て、中盤まで後手有利との判断をしている
マイナスは大きいほど後手有利。19手まで読んだところ、4二玉が有望だったが、7四歩を最後の最後で選んだ。
Bonanza
△7四歩(73)
+56 [ 1] △7四歩(73)
+56 [19] △4二玉(51)
GPSFish
△7四歩(73)
-4 [21/30] △7四歩(73)
検討段階でも端歩を受けるということはやらない模様。確かに60手とか先の話になるのでそれぐらい読める状況じゃないと読まないだろう。
東大将棋の人?がこの点は知ってたようで、端歩はコンピュータ将棋の弱点らしい。
■34手目 6五桂
解説の阿久津七段は人間は選べないと言っていたが、プロなら選ばない手とおもわれる。(逆に素人同士ならありうる)
なぜこれがありえないかというと、ここまでの展開は相手の手を読みながら「対応してくるようだったら仕掛けず」という展開だが、ここで桂馬を飛んでしまうと「やったからには勝ちきる必要がある」将棋に変わるから。
直前の阿部四段の3七桂はハチワンダイバー的には拳銃に弾丸を仕込む手で、この6五桂は撃ってしまった手といえる。
ただ、この後の攻めは素人目にはやばいんじゃないかという感じはしたが、うけ間違いをしないプロはさすがだと思った。
GPSFishは以下のように17手読むと6五桂だが、18手読むと4四歩というようにコンピュータにとっては絶妙のバランスだと思われる。
GPSFish
△4四歩(43)
-193 [19/31] △4四歩(43)
-151 [18/31] △4四歩(43)
-229 [17/30] △6五桂(73)
Bonanza
△4四歩(43)
-61 [16] △4四歩(43)
追記
持ち時間が4時間なので、100手以内には終わるだろうと予想すれば、2.4分。150手以内に終わるとすれば、
1.6分。200手以内だとすれば1.2分と以外に短い。
GPSFishによる局面と検索時間は以下のようであった。
17手 0:30 463万局面
18手 1:28 1400万局面
20手 3:41 2700万局面
21手 5:37 5350万局面
22手 8:15 7766万局面
23手 14:15 1億3273万局面
150手以内だと思うか、200手以内だと思うかで6五桂をやるかどうかが決まる。
GPSFishは深く読むと6五桂はやらないので無理筋だと思っていると思われる。
もし時間的制約があるのなら、絶対に勝てる確信がない限り後が無い6五桂は捨てて、4四歩を選ぶようにするとか、工夫がないとこの局面は改善できない。
ただ、来週以降出てくるコンピュータ側はクラスタリングをして局面を読むスピードをかなり上乗せしているはず。特にGPSにいたっては640台クラスタで出してくるので、今回のような展開にはならないと思われる。
持ち時間が無くなったら30秒モードで読むようなプログラムを組んでいるわけでもなさそうなので、安全に150手ぐらいで挑戦し、時間配分的な問題で6五桂を打ってしまったのかもしれない。
■62手目 4二金
6五桂のように攻めの手を打ったにもかかわらず、攻めの手よりも守りの手が出るというのは完全に読み間違いなのでコンピュータの負けを確信。
駒損している上に、やる手が無くなったことになる。
将棋は基本的に攻める場合は相手の玉型を悪くする代わりに手駒を渡すことになる(駒損)。
この段階だと駒損しているのに、相手の玉を詰ませられないので手がない。
どうもこの手自体は2五桂を意識した守りの手だが、プロからみれば緩手。
この後はプロが着実に攻めを繰り出していく。
などと言ってはみたものの、素人目には先手が悪いように見えたりもするのだが。
プロが確実に真綿で首を締めるように準備を整える一方でコンピュータはやることがないので、成りで点数を稼ぐなど完全に敗戦モード。思い出王手ならぬ思い出角成り。
やる手がなくなって銀を狙いに行ったあたりで、コンピュータも先手有利に判定が傾いていった。
Bonanza
△8四歩打
-182 [15] △8四歩打
GPSFish
△6八成桂(57)
-209 [15/28] △6八成桂(57)
どっちも8八角成が無理筋とみて、別の方法を模索している。ということなら15手目の9六歩を咎めなければいけない。とすると62手目なので、62-15=47手読む必要がある。
では47手読んだら端歩をうけてくれるのかとおもったが、プチ将棋は20手以上設定できない模様。残念。
■端歩の効果
仮に端歩をうけていたらどうだろうか。局面編集を行い、9六歩に対して9四歩と受けた場合の局面を評価してみたところ以下のようになった。
GPSFish
△8四歩打
-497 [15/28] △8四歩打
Bonanza
△8八角成(44)
-314 [16] △8八角成(44)
Bonanzaは角なりでいけると判断。GPSFishはまだ無理筋と判断。
ではさらにそもそも端歩をつかなかった(玉の逃げ道がない状態)だったらどうだろうか。
GPSFish
△6八成桂(57)
-819 [16/30] △6八成桂(57)
Bonanza
△8八角成(44)
-826 [17] △8八角成(44)
端歩をついているかどうかで、スコアで500もの差が生じていた。
端歩をついてあることで先手が有利になる事自体は判定できているが、これを序盤に反映できるかというのがひとつの課題だと思われる。
■Bonanzaではどうだったか
Bonanzaに読ませてみると、2五桂をしきりにやろうとしていたが、プロはそうせずに差をじわじわと広げていった。やはり突撃するときは勝てるか確実な駒得が見込めるときでないといけないということだろう。ここらへんの評価ができないと人間には苦労すると思われる。
で、現状だと局面を読まない能力が必要というような意見も見受けられるが、話はそう簡単ではない。
そもそもコンピュータ将棋の歴史は以下の様な感じになっている
・将棋がわかっている人がよさそうな手を打つようにプログラミングする
・Bonanza登場
・将棋がわかっていない人が、適当なルールを設定して、コンピュータにルールの上下関係を学習させる
この後、GPS将棋では、将棋がわかっている東大生がプログラムすることで、ルールをさらに複雑化させて翌年優勝したり、学習能力を強化するなど、学習方法に多様性が見られる。
そもそも機械学習だけではなくて、他の方法と組み合わせることでブレークスルーが起きることをBonanzaが結果として出したことが大きい。
なので、ここで読まないことというようなことはそう簡単ではない。
■ルールへの対応
プロとコンピュータどっちもちゃんと読めるように互いに持ち時間4時間だったが、何手で決着を付けるかということを考えるかどうかで、中盤の読み筋が大幅に変わる。100手ぐらいで勝負が決まるとすると、一手2分ちょっとで読まないといけない。考えるべきところとそうでないところの判断をするかどうかというのも電王戦では必要な要素だろう。
コメント 0