首页  »  科学  »  科学探索

无需调控而胜任不同任务 这种AI更接近人类思考方式

2019-12-04 08:47:42

来源: 科技日报

  纽约大学心理学与认知科学教授马库斯最近和人工智能企业“深层思维”(DeepMind)杠上了。继前不久在推特(Twitter)上质疑美国通用人工智能研究组织OpenAI的解魔方机械手之后,近日他又对“深层思维”新推出的《星际争霸2》智能体“阿尔法星”(AlphaStar)进化版提出六大质疑。此次,他的质疑点并不是游戏表现本身,而是指向了更高的层面:未来通用智能研究的意义。

  近年最酷成果都来自深度强化学习

  此次OpenAI推出的解魔方机器手,并不是像以往一样使用专业算法来解决某一个特定任务(如果换一个任务,还需要重新编程),而是通过某种学习方法,对机器人进行训练,让机械手具备类人手的解决问题的能力。但马库斯却认为这个成果描述有误导,更恰当的描述应该是“用强化学习操纵魔方”或者是“用灵巧的机器人手操纵物体的进展”。

  “马库斯过于强调‘用强化学习操纵魔方’有点挑剔字眼,其实OpenAI魔方机器手和‘深层思维’发布的《星际争霸2》智能体‘阿尔法星’进化版都使用了深度强化学习技术。深度强化学习是目前公认的在现有技术中最有可能实现通用人工智能的技术。”天津大学智能与计算学部软件学院副教授郝建业解释说,目前机器学习有三大分支,监督学习、非监督学习和强化学习,深度学习属于监督学习里目前最主流的一类技术。深度强化学习是深度学习与强化学习的融合,是将深度神经网络整合到强化学习框架当中。

  “近几年,深度强化学习发展迅猛,它在处理复杂、多方面和决策问题方面显示出巨大的潜力。目前深度强化学习技术主要应用在一些游戏、比赛中。”郝建业介绍,2016年,谷歌的“阿尔法围棋”(AlphaGo)击败了世界顶级围棋选手李世石、柯洁,轰动一时,成为人工智能领域的一个里程碑。“阿尔法围棋”的核心就在于使用了深度强化学习算法,使得计算机能够通过自对弈的方式不断提升棋力。此后又有脸书(Facebook)在DOTA2游戏中打败了顶级职业选手;CMU团队研发的德州扑克AI冷扑大师轻松击败顶级玩家。

  此外,“深层思维”还运用深度强化学习优化了数据中心的耗能;谷歌则利用深度强化学习完成深度神经网络的自动架构搜索,提出了AutoML服务,借此将机器学习作为一种服务推广到千家万户。在我国,对于深度强化学习技术的应用也不少,阿里、腾讯、百度等国内团队将深度强化学习应用到搜索、推荐、营销、派单和路径规划等实际问题的决策中。

  最有可能实现通用人工智能的技术

  人工智能发展到现在的高度,技术上较大的功臣应该属于深度学习算法。深度学习利用多层神经网络,从海量的数据中学习,从而实现对未来的预测,并使人工智能系统越来越智能。目前我们应用的安防监控、自动驾驶、语音识别、百度地图等都是深度学习技术在图像视觉、语音识别、自然语言理解等领域的应用。

  而强化学习也是目前机器学习领域的热门技术,与基于已知标签训练模型的监督学习不同,强化学习能够在没有计算机的明确指示下,像人一样实现自主学习。当达到一定的学习量之后,强化学习系统就能够预测出正确的结果。“强化学习的基本思想是,学习在不同环境和不同状态下,哪种行为能够使得预期利益最大化。”郝建业介绍,新版“阿尔法星”智能体就采用了强化学习的自对战技术,其学习过程不需要数据标注,而是由奖励函数进行主导。智能体获得奖励得分或赢得一场比赛,它会得到积极的反馈,智能体就会根据对战的成绩好坏,来调整行为动作。这犹如婴儿学走路,会根据产生的结果好坏来调整行为动作。

  目前对通用人工智能的定义主要有两个特点,一是端对端的学习,二是任务自适应,?无需人类参与调控而胜任不同的任务。深度强化学习可以将深度学习的感知能力和强化学习的决策能力相结合,直接根据输入的信息进行控制,是一种更接近人类思维方式的人工智能技术。在与世界的正常互动过程中,强化学习会通过试错法利用奖励来学习,这跟自然学习过程非常相似。比如单手解魔方机器手,它可能需要利用深度学习的识图技术等看到魔方,而后还需强化学习的模型让机器手在不断的试错过程中自主学习。在强化学习中,可以使用较少的训练信息,这样做的优势是信息更充足,而且不受监督者技能限制。深度强化学习朝构建对世界拥有更高级理解的自主系统又迈出了一步,这也是为什么说深度强化学习是目前公认的在现有技术中最有可能实现通用人工智能的技术。

  未来通用人工智能还需依托脑科学发展

  “虽然说深度强化学习技术最有可能实现通用人工智能,但是并不能说就一定能够实现,我们离真正的通用人工智能还是有很大差距的。”郝建业表示,深度学习和强化学习结合的时候,对现实情况的枚举就变成首先需要对现实情况进行模式识别,然后进行有限模式的枚举,从而减少计算的压力,但是所需的数据将比其他机器学习算法要大得多。如果将场景扩展到多智能体的深度强化学习,那么需要的数据和算力是呈指数级上升的,目前还没有平台能够提供强化学习所需要的海量数据,无法穷举现实中可能遇到的种种复杂情况。这种数据需求在很多现实领域中都是无法实现的。

  举例说明,比如强化学习需要大量的试错,如果把单手解魔方机器手应用到做饭的现实场景,那么它可能会把食材弄一地,也可能把一整袋盐倒到锅中,还有可能引起火灾。因此通过试错学习的模式,在现实场景中是无法实现的。

  此外,深度学习和强化学习都是机器学习领域中最难调试成功的,它的成功案例其实不算很多,但是一旦推出,都会引起轰动。并且,这是一个连随机种子都会大大影响学习效果的模型框架。同样的模型,训练10次可能7次是失败的,3次是成功的。还有一点,深度强化学习极其容易过拟合到智能体当前交互的环境中,所以环境稍有改变,之前看起来表现出色的智能体,很可能就会犯低级错误。

  “人类认识事物的时候,一般都是通过数据进行因果推理和判断,才得出相应的解决方案。而目前的人工智能系统却并不能实现这种因果推导。”郝建业表示,可能未来通用人工智能的发展,还需要依托于脑科学的发展,目前我们对人脑的认知还处于非常初级的阶段。大脑对事物的认知过程、解决问题的过程以及思考的能力等机制还都不清楚,因此,目前人工智能的发展,离这种真正能模拟人类智能思考的通用人工智能还有很长的路要走。

  • 相关阅读
  • 中国科学家获得亚洲科学大奖

      记者从微尺度物质科学国家研究中心获悉,12月6日,日本仁科纪念基金会在东京会馆召开仁科芳雄奖项的颁奖典礼和晚宴,基金会理事长、诺贝尔物理学奖得主小林诚宣布,将2019年度“仁科芳雄亚洲奖”授予中国科学...

    时间:12-10
  • 应用场景勤落地 城市管理更智慧

      作为国家首批智慧城市试点,中新天津生态城加快实施“生态+智慧”双轮驱动发展战略,着力打造生态城市升级版和智慧城市创新版。日前,中新天津生态城华为滨海基地投入运营,27个智能产业项目“牵手”落户,将...

    时间:12-10
  • “鹊桥”又有新动作 三根天线探秘宇宙黑暗时代

      自顺利着陆月球背面以来,嫦娥四号着陆器和玉兔二号月球车的一举一动都备受关注。事实上,我们能得知它们的动态,多亏“鹊桥”号中继星架起的通信桥梁。   在提供通信中继服务的同时,“鹊桥”号中继星还肩...

    时间:12-10
  • “量子压缩”升级LIGO 每周都能发现新引力波

      2015年9月,位于美国的激光干涉重力波观测仪(LIGO)首次探测到引力波,验证了爱因斯坦提出的“百年猜想”,人类天文学开启了“引力波时代”。   日前,来自麻省理工学院、加州理工学院、澳大利亚国立大学...

    时间:12-10
  • 个人信息泄露 APP默认勾选问题最严重

      “数据显示,在受访者遇到的APP个人信息保护问题中,最多的是默认勾选问题,占64.69%。”日前,在由南方都市报大数据研究院·南都个人信息保护研究中心主办的“2019啄木鸟数据治理论坛”上,南都个人信息保护...

    时间:12-10
  • X射线自由电子激光器可引发核聚变

      根据核物理的理论,控制受控核聚变需要高能量。但是,利用X射线的最新自由电子激光器提供的能量和电磁场,可以在较低能量下引发核聚变,德国德累斯顿—罗森多夫亥姆霍兹中心(HZDR)科学家在《物理评论》杂志...

    时间:12-10
  • “i深圳”区块链电子证照平台上线

      深圳市统一政务服务APP“i深圳”区块链电子证照应用平台9日正式上线发布,实现居民身份证等24类常用电子证照上链,在个人隐私得到最大程度保护的基础上,企业市民携带纸质证明办事的不便将大大减少,办事有望...

    时间:12-10
  • 打破科技创新体制壁垒

      最近,2019年中国工程院院士增选结果揭晓,共产生了75位院士和29位外籍院士。值得关注的是,本次当选的75位院士中,有两名院士来自民营企业,王坚院士更是被称为“民企院士第一人”。   前不久,科技部公布...

    时间:12-10
  • 人工智能发展之路还很长

      人工智能是新一轮科技革命和产业变革的重要驱动力量,正在对经济发展、社会进步、国际政治经济格局等方面产生重大而深远的影响。我国人工智能发展起步较晚,要努力在理论、方法、工具、系统等方面取得变革性...

    时间:12-10
  • 电力数据动脑 千家万户受益

      输入关键词,电网扶贫、用电情况、上网电量等数据一目了然;线路故障、区域停电可预测预警;实时采集“供能—用能”全过程数据,为用能企业建立能耗智慧管理体系,指导企业能源使用更合理、更经济;为全省30...

    时间:12-10
免责声明:本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。 本网站转载图片、文字之类版权申明,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。