五千年(敝帚自珍)

主题:【原创】“死活读不下去” -- 语迟

共:💬28 🌺120 🌵10
全看分页树展 · 主题 跟帖
家园 ML课上也写过CNN,阿发狗用DCNN,没搞过

围棋b位置和d步,状况是250^150,大到不能用暴利法。2个问题 1减少bd值。2 value function很不光滑。 以阿法狗 最重要是用了MCTS,随机树搜索, Selection/Expansion/Evaluation/Backup把胜率高的下法比较大权重。第二用了ML,从KGS Go Server上找了3千万步棋谱训练了 supervised learning (SL),policy function p-sigma,这样阿发狗能下的像模像样了,它不需要计算,就能猜对手下一手 另一个更快但稍弱rollout policy function p-pi,这个就是线性的softmax 。 第三步是提高阿法狗跟自己下,用reinforcement learning (RL)提高police network function p-rho。,这时候它可以打败相当业余二段的Pachi,当时最好的围棋软件。第四步,阿法狗跟自己下,找最佳位置 而非概率位置, 通过RL估计得到value function v-theta 这步主要靠记忆,比起MC rollout要准确。value function 是个数值,可以解读为当时局面的评估 。这一点,Facebook田渊栋组的软件Darkforest没有。 最后一步 阿法狗把policy function和value function结合在MCTS。值得注意的是 SL police network 比 RL.表现好, 这篇文章猜原因是人类倾向多步最优,而阿发狗喜欢选折一步最优,v-theta 在 rollout中的运用大大加快了MCTS速度。有趣的是,p-sigma + v-theta的组合比p-rho+ v-theta更强

最后,对战中阿法狗用的是 p-sigma + v-theta + p-pi,自认达到专业一段棋力

文章说了单机版用了 48个cpu,8个gpu。分布式版用了1202cpu,176gpu。 网络版对单机版胜率是70%。

文章总结了阿发狗的贡献就是综合了这三种算法, RL,SL和MCTS.

个人感觉统计法的引入人工智能,算法更复杂了,计算更多了,更多是大数据统计,而非核心的人工智能算法突破, 阿发狗的历史地位没有大家想象的那么高。

看了我这篇介绍,可以去下载一个超级简易版的AlphaGo围棋软件玩玩体验下,才400行的程序。 我的说法就是400行程序打败大部分人类智力。

这个围棋程序的名字叫Disco,是使用Python语言实现的。作者是shedskin库的作者Mark

Dufour。

下载链接 https://pypi.python.org/pypi/Disco

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河