登录  
飘剑的博客
  个人资料

用户:飘剑
网名积分:1500
实名积分:1500
博客等级:0
博客访问:97137
关注粉丝:7
  好友
暂无好友
  正文

Deepmind又发AI新论文了,这次的目标是国际象棋和日本将棋!

上次Deepmind让AlphaGo Zero在围棋上从零开始学习,短时间就训练成功棋力惊人。但是围棋规则是很简单的,Deepmind这次把这个技术用到了国际像棋和日本将棋这两种规则很复杂的棋类上。结果证明,从零开始学习对于复杂规则的棋类也是通用的,而且比围棋花更少的时间就能训练成功。

Chess就是国际象棋,Shogi是日本将棋,都和中国象棋有些类似,兵种很多,每个兵种有各自的行棋规则。从规则复杂度来说,比围棋繁琐多了。但是从搜索 状态空间看,比围棋又少多了,国际象棋是10^46次方,围棋是10^171。

国际象棋AI之前就已经远远高于人类棋手的实力了,实力最强最有名的程序之一是Stockfish。新的程序是AlphaZero注意不是AlphaGo Zero, Go是围棋的英文名)。下面是AlphaZero的具体战绩。

可以看出,Stockfish无论先走后走,都胜不了AlphaZero。虽然100局里和了72局,但是通常国际象棋顶级AI大战100局90局会和掉。AlphaZero胜了28局,而且一局没输,实力应该是比Stockfish强不少。和这么多,主要是国际象棋容易和棋,非常可能两个上帝下就是和局。

AlphaZero对日本将棋程序Elmo的优势更大,100局是90胜2和8负。但是也输过,这个特点有些异常。AlphaZero训练一天,就能比之前训练三天的20 blocks的AlphaGo Zero强,100局是60胜40负,但这个进展并不是太让人吃惊,应该只是训练速度快了,棋力增强到没有多少,更强的是训练40天的40 blocks的AlphaGo Zero。

这是训练花的时间,4个小时后(对应300K的训练步数),AlphaZero就战胜了Stockfish。2小时后(对应110K的训练步数),AlphaZero就战胜了Elmo。训练8小时战胜AlphaGo Lee,24小时超过AlphaGo Zero。

当然训练花的时间长短,和训练时用的机器有关。AlphaZero用了5000个TPU(相当于5万个GPU)用于生成对局,这是非常惊人的数字,一般公司肯定搞不了。如果只有10个GPU,那可能要2年才能自学习训练出一个国际象棋程序。

以前人们用”人工编程加专家知识“的办法,已经打败了人类棋类高手。如国际象棋、日本将棋,都是人写了很多代码的,也需要专业棋手来帮忙,有时还有好几个G的开局库,研发时间也很长。而且这种“人工编程加专家知识”的办法,还解决不了围棋。

Deepmind用机器学习的办法,在围棋上取得了突破。这篇文章回头证明,用机器学习的办法,可以用更简单的办法解决其它棋类。编程任务很简单,训练起来也很快,这个开发思想完全是革命性的。当然它需要很多GPU硬件,只有大公司能搞。

国际象棋在世界上的影响比围棋要大不少,更为普及。Stockfish也是国际象棋爱好者最喜欢的AI。这次Stockfish这么容易就被打败了,对国际象棋界也会有不小的冲击。许多国际象棋AI开发者要想新的办法开发了。


阅读(223) | 评论(0) | 转载(0) | 举报
评论
暂无评论
我要评论:

匿名评论  


大师网博客 | 注册须知
电话:13603119508  电子邮箱:zgxqds@126.com    © 2006,版权所有(中国象棋大师网)    冀ICP备06022471