主题:【原创】“死活读不下去” -- 语迟
围棋b位置和d步,状况是250^150,大到不能用暴利法。2个问题 1减少bd值。2 value function很不光滑。 以阿法狗 最重要是用了MCTS,随机树搜索, Selection/Expansion/Evaluation/Backup把胜率高的下法比较大权重。第二用了ML,从KGS Go Server上找了3千万步棋谱训练了 supervised learning (SL),policy function p-sigma,这样阿发狗能下的像模像样了,它不需要计算,就能猜对手下一手 另一个更快但稍弱rollout policy function p-pi,这个就是线性的softmax 。 第三步是提高阿法狗跟自己下,用reinforcement learning (RL)提高police network function p-rho。,这时候它可以打败相当业余二段的Pachi,当时最好的围棋软件。第四步,阿法狗跟自己下,找最佳位置 而非概率位置, 通过RL估计得到value function v-theta 这步主要靠记忆,比起MC rollout要准确。value function 是个数值,可以解读为当时局面的评估 。这一点,Facebook田渊栋组的软件Darkforest没有。 最后一步 阿法狗把policy function和value function结合在MCTS。值得注意的是 SL police network 比 RL.表现好, 这篇文章猜原因是人类倾向多步最优,而阿发狗喜欢选折一步最优,v-theta 在 rollout中的运用大大加快了MCTS速度。有趣的是,p-sigma + v-theta的组合比p-rho+ v-theta更强
最后,对战中阿法狗用的是 p-sigma + v-theta + p-pi,自认达到专业一段棋力
文章说了单机版用了 48个cpu,8个gpu。分布式版用了1202cpu,176gpu。 网络版对单机版胜率是70%。
文章总结了阿发狗的贡献就是综合了这三种算法, RL,SL和MCTS.
个人感觉统计法的引入人工智能,算法更复杂了,计算更多了,更多是大数据统计,而非核心的人工智能算法突破, 阿发狗的历史地位没有大家想象的那么高。
看了我这篇介绍,可以去下载一个超级简易版的AlphaGo围棋软件玩玩体验下,才400行的程序。 我的说法就是400行程序打败大部分人类智力。
这个围棋程序的名字叫Disco,是使用Python语言实现的。作者是shedskin库的作者Mark
Dufour。
下载链接 https://pypi.python.org/pypi/Disco
- 相关回复 上下关系8
压缩 2 层
🙂那篇自然论文大致看了下也能做到基本理解了?那篇? 2 说几句 字1488 2016-03-21 20:28:29
🙂zhihu和买卖提围棋版上无数帖子说得比我好深广, dafemren 字333 2016-03-23 17:03:57
🙂一篇还是几篇?你不清楚别人的事,应该清楚自己的事,对吧? 2 说几句 字441 2016-03-23 22:19:03
🙂ML课上也写过CNN,阿发狗用DCNN,没搞过
🙂建议你用你的至会挣钱去吧,还有你的时间 2 说几句 字1822 2016-03-24 07:08:21
🙂英语世界 4 皮儿 字118 2016-03-17 23:27:49
🙂我猜他看不懂他自己说的“那3个小年轻用了几个算法”的智慧 1 说几句 字0 2016-03-18 10:55:32
🙂test 说几句 字4 2016-03-23 11:42:00