【逐日科技网】
人工智能(AI)系统能够学会一款雅达利(Atari)游戏,然后行使这些知识再学习另一款游戏。
2014年当DeepMind的机械学习系统学会玩雅达利游戏时,突然引人瞩目地跃入民众视线。这套系统可以把游戏打通关,得分比人类还高,但却不记得它是怎样做到的。
该系统玩每一款雅达利游戏时,都要单独建立一组神经网络,因此,若是不能同时为人工智能输入《空间入侵者》(Space Invaders)和《打砖块》(Breakout)的信息,就不能在同一个系统上玩这两款游戏。现在,一组DeepMind和伦敦帝国理工学院的研究人员已经建立了一种算法,允许该系统的神经网络自主学习,保留信息,并再次使用它。
“以前我们有一个系统可以学着玩任何游戏,但它一次只能学会玩一款游戏,“DeepMind的研究科学家詹姆斯·基尔克帕特里克(James Kirkpatrick)说,他是该系统最新研究论文的主笔。“在此我们展示了一个系统,可以一个接一个地学习玩几个游戏。”
这篇论文揭晓在美国国家科学院学报上,注释了DeepMind的AI系统若何运用有监视学习和强化学习测试等方式来不停学习。该公司的博客文章也对此做了说明。
计算机科学家在论文中写道:“不停完成学习义务而不遗忘的能力是生物和人工智能的焦点组成部门。”基尔克帕特里克说,现在,神经网络和人工智能中的“重大缺陷”已无法从一个义务通报到下一个义务。
研究小组示意,已经能够在“突触整合”的基础上展示“延续学习”,在人脑中,这个历程被形貌为“学习和影象的基础”。
为了让AI系统拥有影象,DeepMind研究人员开发了一种名为“弹性权重固化”(EWC)的算法。论文指出,“我们的方式是通过有选择性地减慢高权重义务的学习速率来记着旧的义务。”基尔克帕特里克注释说,该算法可以选择在游戏中乐成通关的做法,并把最有用的部门保留下来。
“我们只允许它们(在游戏间)异常缓慢地做出改变,”他说,“如此一来,我们就有了学习新义务的空间,然则我们所举行的改变不会笼罩我们以前学过的器械。”
为了对算法举行测试,DeepMind采用了深度神经网络,它被称为Deep Q网络(DQN),以前曾被用来征服雅达利游戏。然而,这一次DQN使用的是“增强的”EWC算法。研究人员随机选择了十款雅达利游戏来测试算法和神经网络,AI的显示足以与人类玩家相媲美。每款游戏被玩过2000万次之后,系统自动切换到下一款雅达利游戏。
“以前,DQN不得不单独学习若何玩一款游戏,”文章写道。“DQN在EWC的助力下功效大增,可以不再履历灾难性的遗忘历程,延续不停地学会玩许多游戏。”
从本质上讲,使用EWC算法的深度神经网络能够学习玩一个游戏,然后将已学会的知识加以转换,再去玩下一个全新的游戏。
然而,这套系统还不完善。虽然它能够学习以前的履历,并保留最有用的信息,但它的神经网络无法像只完成一个游戏那样运转优越。
“当下,我们已经证实了AI系统能够不停学习,但我们还无法证实它的学习效率有所提高,”基尔克帕特里克说。“下一步我们将行使和规范延续学习,实验和改善它在现实天下的学习流动。”(斯眉)