当前位置:主页 > 阅读热门 >

新版的AlphaGo已经不需要向人类导师取经了?

来源:www.hg07111.cc   作者:hg0088   日期:2017-05-25 14:48

    在棋局的每一回合,AlphaGo 运行火力全开(full power)的搜索以生成对落子的建议,即计划。当它选择这一步落子、实施、并到一个新回合时,会再一次运行搜索,仍然是基于策略网络和价值网络、火力全开的搜索,来生成下一步落子的计划,如此循环,直到一局棋结束。它会无数次重复这一过程,来产生海量训练数据。随后,我们用这些数据来训练新的神经网络。
 
    首先,当 AlphaGo 和它自己下棋时,用这些训练数据来训练一个新策略网络。事实上,在 AlphaGo 运行搜索、选择一个落子的方案之前,这些是我们能获取的最高质量的数据。
 
    说说新版本的AlphaGo吧,我们把它称作AlphaGo Master。这是目前最强的AlphaGo,也正是此次大会中比赛的AlphaGo。AlphaGo Master使用的算法要比以前高效得多,以至于只需要AlphaGo Lee版本十分之一的计算量。以及,训练AlphaGo Master也要高效得多。
 
    AlphaGo Master运行在单台(single machine)电脑上(会后采访中,AI科技评论在内的媒体跟Silver亲自确认,是运行在单台电脑上,但包含4个TPU),但是比拥有更多TPU的AlphaGo Lee、AlphaGo Fan都要厉害。
 
    AlphaGo Master为何如此厉害呢?背后的原因是因为我们用了最好的数据来训练它。我们能获取到的最好的数据不是来自于人类,而是来自于AlphaGo自己。我们让AlphaGo做自己的老师。我们利用AlphaGo强大的搜索能力,自己生成数据,用生成的数据让下一代的AlphaGo学习。自己教自己。
 
    用这样的方法,我们训练出的价值网络和策略网络就比以前的AlphaGo都要厉害。下面我来仔细介绍一下算法中的细节。
 
    首先,我们让AlphaGo跟自己对弈。这是基于强化学习的,我们已经不再拿人类的棋局给它学习了。AlphaGo自己训练自己,自己从自己身上学习。通过强化学习的形式,它学到如何提高。
 
    下一步,让策略网络只用它自己、不用任何搜索,来看它是否能产生同样的落子的方案。这里的思路是:让策略网络只靠它自己,试图计算出和整个 AlphaGo 的火力全开搜索结果一样的落子方案。这样一来,这样的策略网络就比之前版本的 AlphaGo 要厉害得多。
 
    我们还用类似的方式训练价值网络。它用最好的策略数据来训练,而这些数据,是出于完全版本的 AlphaGo 自己和自己下棋时的赢家数据。你可以想象,AlphaGo 自己和自己下了非常多盘棋。其中最有代表性的棋局被选取出来提取赢家数据。因此,这些赢家数据是棋局早期回合步法的非常高质量的评估。
 
    比如说,在某局棋中,我们想知道在第 10 回合的局势,怎么办?我们从头重新运行一遍这局棋,发现最后黑方赢了,据此就可以做出合理推测:黑方在第 10 回合占优势。
 
    所以你需要高质量训练数据来训练价值网络。然后用价值网络来预测这些 AlphaGo 自己和自己下棋的棋局中,哪一方是赢家。这些数据中,棋局的每一回合,我们都让价值网络来预测最后的赢家。
 
    最后,我们重复这一过程许多遍,最终得到全新的策略和价值网络。比起旧版本,它们要强大得多。然后再把新版本的策略、价值网络整合到 AlphaGo 里面,得到新版本的、比之前更强大的 AlphaGo。这导致树搜索中更好的决策、更高质量的结果和数据,再循环得到新的、更强大的策略、价值网络,再次导致更强大的 AlphaGo,如此不断提升。
 
    最后,AlphaGo的表现如何呢?以围棋等级分来看,以前ZEN、CrazyStone软件达到约2000分,樊麾版AlphaGo达到近3000分,李世石版AlphaGo上涨3子,达到3500分以上,AlphaGo Master又涨3子,达到4500分以上。
  • 上一篇:新版的AlphaGo已经不需要向人类导师取经了?
  • 下一篇:我国在全球新能源汽车领域的竞争力将大大提升
  • Copyright 2015-2016 肇庆华润石油 版权所有 | 网站地图