主题：【原创】“死活读不下去” -- 语迟

共:💬28 🌺120 🌵10

老大河待整

ML课上也写过CNN，阿发狗用DCNN,没搞过

围棋b位置和d步，状况是250^150，大到不能用暴利法。2个问题 1减少bd值。2 value function很不光滑。以阿法狗最重要是用了MCTS,随机树搜索， Selection/Expansion/Evaluation/Backup把胜率高的下法比较大权重。第二用了ML，从KGS Go Server上找了3千万步棋谱训练了 supervised learning (SL)，policy function p-sigma，这样阿发狗能下的像模像样了，它不需要计算，就能猜对手下一手另一个更快但稍弱rollout policy function p-pi，这个就是线性的softmax 。第三步是提高阿法狗跟自己下，用reinforcement learning (RL)提高police network function p-rho。，这时候它可以打败相当业余二段的Pachi，当时最好的围棋软件。第四步，阿法狗跟自己下，找最佳位置而非概率位置，通过RL估计得到value function v-theta 这步主要靠记忆，比起MC rollout要准确。value function 是个数值，可以解读为当时局面的评估。这一点，Facebook田渊栋组的软件Darkforest没有。最后一步阿法狗把policy function和value function结合在MCTS。值得注意的是 SL police network 比 RL.表现好，这篇文章猜原因是人类倾向多步最优，而阿发狗喜欢选折一步最优，v-theta 在 rollout中的运用大大加快了MCTS速度。有趣的是，p-sigma + v-theta的组合比p-rho+ v-theta更强

最后，对战中阿法狗用的是 p-sigma + v-theta + p-pi，自认达到专业一段棋力

文章说了单机版用了 48个cpu，8个gpu。分布式版用了1202cpu，176gpu。网络版对单机版胜率是70%。

文章总结了阿发狗的贡献就是综合了这三种算法， RL,SL和MCTS.

个人感觉统计法的引入人工智能，算法更复杂了，计算更多了，更多是大数据统计，而非核心的人工智能算法突破，阿发狗的历史地位没有大家想象的那么高。

看了我这篇介绍，可以去下载一个超级简易版的AlphaGo围棋软件玩玩体验下，才400行的程序。我的说法就是400行程序打败大部分人类智力。

这个围棋程序的名字叫Disco，是使用Python语言实现的。作者是shedskin库的作者Mark

Dufour。

下载链接 https://pypi.python.org/pypi/Disco

全看分页树展 · 主题跟帖

相关回复上下关系8
压缩 2 层
- - 🙂那篇自然论文大致看了下也能做到基本理解了？那篇？ 2 说几句字1488 2016-03-21 20:28:29
    🙂zhihu和买卖提围棋版上无数帖子说得比我好深广， dafemren 字333 2016-03-23 17:03:57
    🙂一篇还是几篇？你不清楚别人的事，应该清楚自己的事，对吧？ 2 说几句字441 2016-03-23 22:19:03
    🙂ML课上也写过CNN，阿发狗用DCNN,没搞过
    🙂建议你用你的至会挣钱去吧，还有你的时间 2 说几句字1822 2016-03-24 07:08:21
- 🙂英语世界 4 皮儿字118 2016-03-17 23:27:49
  - 🙂我猜他看不懂他自己说的“那3个小年轻用了几个算法”的智慧 1 说几句字0 2016-03-18 10:55:32
    🙂test 说几句字4 2016-03-23 11:42:00

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明