五千年(敝帚自珍)

主题:alphaGo 系统以及人工智能的未来 -- pattern

共:💬83 🌺264
全看分页树展 · 主题 跟帖
家园 我们在左右互搏这个问题上

不太一致。你大概是认为左右互博可以有很多超越人类的创新。

我认为左右互博只是弥补样本不足的问题。DEEPMIND 在他们的论文中说通过强化学习,策略网络的准确率从57%提升到了80%。我觉得这个小组还是通过人类的棋局来判断准确率的。但是人类的棋局太少,因此需要自我下棋来增多样本来提高网络的准确率。

核心就是我认为这些样本不太会有超越人类的创新。高水平的左右互博也许会有一些创新,但不太会有太大的比例。因为这相当于用蒙特卡洛算法可以下出大量超越现有水平的棋。如果这个能实现的话,也用不着深度学习了。

另一方面,左右互博的样本,还有一个可能是下了一盘臭棋,因此会降低网络的胜率。DEEPMIND是如何排除,或者是一股脑儿接收的。这个还需要进一步的细节。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河