加拿大pc28 > 数理科学 > 该商场一种通用棋类人工智能alpha零能从零底工初

原标题:该商场一种通用棋类人工智能alpha零能从零底工初

浏览次数:70 时间:2020-04-20

新华社伦敦12月6日电英国深度思维公司最新发布的论文说,该公司一种通用棋类人工智能阿尔法零能从零基础开始强化学习,24小时之内击败了此前最强的国际象棋、日本将棋和围棋人工智能程序,由此前专攻一项技能走向多种技能通杀。

12月7日,谷歌旗下的人工智能实验室DeepMind研究团队在《科学》杂志上发表封面论文,公布了通用算法AlphaZero和测试数据。《科学》杂志评价称,通过单一算法就能够解决多个复杂问题,是创建通用的机器学习系统、解决实际问题的重要一步。该论文的作者包括AlphaGo的核心研发人员戴维席尔瓦(David Silver)和DeepMind创始人戴密斯哈萨比斯(Demis Hassabis)等。2018年12月7日的《科学》杂志封面

深度思维公司在最新论文中透露,阿尔法零从零开始,通过自我对弈强化学习,约2小时击败日本将棋顶级人工智能程序,4小时击败国际象棋顶级人工智能程序,8小时击败战胜韩国棋手李世石的阿尔法围棋-李,并在24小时内战胜了通过72小时自我学习训练称王围棋的阿尔法围棋-零。

AlphaGo首次为人们所熟知是2016年与围棋世界冠军李世石进行围棋人机大战,并最终以4比1的总比分获胜。实际上早在2016年1月谷歌就在国际学术期刊《自然》杂志上发表封面文章,介绍AlphaGo在没有任何让子的情况下以5:0 完胜欧洲冠军、职业围棋二段樊麾。

10月,阿尔法围棋-零第一次让人工智能在不学习任何既定棋谱、只设定规则的情况下,完全从零开始、自我对弈取得飞速进步。而此次的阿尔法零在此基础上训练了3种独立的程序,其中国际象棋程序自我对弈4400万局,日本将棋程序自我对弈2400万局,围棋对弈了2100万局。

2016年1月28日《自然》杂志封面

加拿大pc28,一些人工智能专家表示,人工智能完全依靠自己摸索,意味着人工智能可以更好地进入对它来说本是一片空白的领域;而阿尔法零的问世显示人工智能可以向通用化发展,为诸如开发新药这种与棋类游戏一样有明确规则和目标的问题提供发展蓝图。

2017年10月18日,DeepMind团队公布了最强版阿尔法围棋,代号AlphaGo Zero。彼时DeepMind表示,棋类AI的算法主要基于复杂的枚举,同时需要人工进行评估,人们在过去几十年内已经将这种方法做到极致了。而AlphaGo Zero在围棋中的超人表现,则是通过与自己下棋练习出来的。

现在DeepMind研究团队将这种方法推广到AlphaZero的算法中,AlphaZero最长花了13天自学成才,随后与世界冠军级的棋类AI对决:在国际象棋中,AlphaZero在4个小时后首次击败了第九季TCEC世界冠军Stockfish。在日本将棋中,AlphaZero在2小时后击败了将棋联盟赛世界冠军Elmo。在围棋上,AlphaZero经过30个小时的鏖战,击败了李世石版AlphaGo。AlphaZero:一个算法通吃三大棋类AlphaGo的前几代版本,一开始都是与人类棋手的棋谱进行上千盘的训练,学习如何下围棋。到了AlphaGo Zero则跳过了这个步骤,通过自我对弈学习下棋,从零学起。系统从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。与AlphaGo Zero一样,从随机小游戏开始,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,在除了游戏规则外没有任何知识背景的情况下,通过自我对弈进行强化学习。强化学习的方式是一种通过试错的机器学习方式。DeepMind在其博客中介绍,一开始AlphaZero完全是在瞎玩,但随着时间的推移,系统从胜、负和平局中学习,调整神经网络的参数,如此往复循环,每过一轮,系统的表现就提高了一点点,自我对弈的质量也提高了一点点,神经网络也就越来越准确。神经网络所需的训练量取决于游戏的风格和复杂程度。经过试验,AlphaZero花了9个小时掌握国际象棋,花了12个小时掌握日本将棋,花了13天掌握围棋。AlphaZero的训练步骤

AlphaZero继承了AlphaGo Zero的算法设置和网络架构等,但两者也有诸多不同之处。比如围棋中很少会出现平局的情况,因此AlphaGo Zero是在假设结果为非赢即输的情况下,对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果也纳入考虑,对结果进行估计和优化。

本文由加拿大pc28发布于数理科学,转载请注明出处:该商场一种通用棋类人工智能alpha零能从零底工初

关键词:

上一篇:没有了

下一篇:当物体向前滚动时