首页  »  新闻频道  »  国内新闻

“紫东太初”首次实现“以图生音”和“以音生图”

2022-09-19 01:19:04

来源:科技日报

  “紫东太初”首次实现“以图生音”和“以音生图” AI从“一专一能”迈向“多专多能”

  ◎实习记者 李诏宇

  “紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

  近日,2022世界人工智能大会在上海举行,由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“此次大会的‘智联世界,元生无界’主题,恰好揭示了人类智能未来发展的两大方向,智联世界代表弱人工智能对物理世界的作用及改造,而元生无界则代表着利用人工智能技术构建元宇宙,实现虚实融合的新型世界。”中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志说。

  中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示,“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

  “紫东太初”具备部分类脑特性

  在闫怀志看来,通用人工智能旨在制造出像人类一样思考、像人类一样拥有全面智能、能够从事多类型工作的机器,因此又被称为强人工智能。目前的人工智能充其量只是承袭了人类的认知结果,远未形成不同感官之间的、相互确定的认知能力。

  传统的人工智能,比如大名鼎鼎的阿尔法围棋(AlphaGo),在一些领域内已经“孤独求败”。不过,北京德火科技有限责任公司技术总监李岩表示,现阶段许多行业内应用的人工智能技术仍处于比较初级的阶段,与科幻电影中设想的各类人工智能应用还相去甚远。

  在王金桥看来,人工智能一路发展至今,虽然取得了许多突破与进步,但仍存在三大主要局限:首先,人工智能模型的功能单一,一个模型只能解决一个任务;其次,人工智能模型的训练依赖于大量的样本,如果缺乏足够的样本支撑,训练也就无从谈起。以训练人脸识别数据库Webface为例,需要2.6亿张图片才能训练出一个可用的模型;最后,人工智能模型的泛化能力差,不能应用于广泛的应用场景。

  “我们一直以来都在追求如何解决当前人工智能‘一专一用’的问题,基于自监督学习的多模态预训练模型是当前的一个重要发展路径。”王金桥说。

  自监督学习指的是从大规模的无监督数据中挖掘隐含的监督信息进行训练,从而得到对下游任务有价值的表征,相比于传统的深度学习,是更接近人类的学习方式。

  “能否在同一个维度、同一个空间,面对不同的场景提供同一个多模态大模型,摆脱‘一专一能’,是实现人工智能通用化的基础。”王金桥说。“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习,突破了当前AI技术局限,具备部分类脑特性,从“一专一能”迈向“多专多能”。

  闫怀志指出:“本质上,‘以图生音’和‘以音生图’仍然是一种基于数据的人工智能,但它更接近于人类的理解和思考方式,因此可以被视为从弱人工智能向通用人工智能迈进的重要基础性工作。”

  实现三模态内容的统一与重现

  曾经,“以图生音”和“以音生图”只是幻想,而如今的“紫东太初”却让这两者成为了现实。“以图生音”和“以音生图”究竟是如何实现的?实现图、文、音三模态转化的真正关键以及底层逻辑是什么?

  据悉,“紫东太初”三模态间的相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示;之后,再利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。

  王金桥表示:“通俗地说,‘紫东太初’就是将形式各不相同的三模态内容转化为一个统一的多模态知识表示,之后再次利用这种知识表示重新生成三模态内容,以此实现‘以图生音’和‘以音生图’。”

  同时,王金桥还表示,“紫东太初”凭借四大突破,有效助力以多模态认知为核心的通用人工智能发展。

  具体来说,一是首次提出多层次、多任务跨模态自监督学习框架,支持从词条级走向模态级、样本级的三级预训练自监督学习方式;二是首次完成弱关联多模态数据语义统一表示,减少数据收集与清洗代价;三是首次实现多模态理解与生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务;四是首次实现无监督超越有监督方法,基于5%—10%的数据标注,实现100%的有监督学习效果。

  打造典型人工智能行业应用

  “与单模态和图文两模态相比,‘紫东太初’采用图、文、音三模态大模型,可以灵活支撑全场景的人工智能应用。”王金桥说,“‘紫东太初’还具有在无监督情况下多任务联合学习以及不同领域数据快速迁移的强大能力。引入语音模态后的多模态预训练模型,可实现共性图文音语义空间表征和利用,并突破性地直接实现三模态的统一表示,对更广泛、更多样的下游任务提供模型基础支撑。”

  “目前,我们已经整合了产学研用各方面的资源,打造了一系列典型的人工智能行业应用。”王金桥说。在智能制造领域,“紫东太初”可以有效降低模型训练对于样本数量的依赖,同时提升算法性能。

  “紫东太初”还与杭州移动共同打造了为杭州文旅代言的智能文旅虚拟人“杭小忆”。“紫东太初”的多模态对话支持南宋御街场景陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练,助力南宋御街的导游、导购人工智能数字人实现语音识别、中文对话、语音交互、以音生图等功能。

  • 相关阅读
  • 新时代十年的伟大变革具有里程碑意义

      【光明论坛】新时代十年的伟大变革具有里程碑意义  党的十八大以来,以习近平同志为核心的党中央高度重视现代化经济体系建设,坚持党对经济工作的全面领导,坚持以人民为中心的发展思想,统筹国内国外两个大局...

    时间:09-19
  • 台地震测报中心:3天内可能还有5级以上地震

      中新网9月19日电 18日台湾花莲县发生6.9级地震, 据台湾“中央社”报道,台气象部门地震测报中心预估接下来5天或1周左右,余震频率会显著下降。  地震测报中心主任陈国昌表示,主震发生3天内可能还有5级以上的...

    时间:09-19
  • 自然资源部:中国海洋经济整体实力不断提升 海洋产业结构不断优化

      中新网9月19日电 9月19日,中共中央宣传部举行“中国这十年”系列主题新闻发布会,介绍新时代自然资源事业的发展与成就有关情况。自然资源部总工程师张占海介绍,中国海洋经济整体实力不断提升。2012-2021年,海...

    时间:09-19
  • 党建引领协同发力 杭州着力提升基层治理效能

      党建引领 协同发力   杭州着力提升基层治理效能  今年以来,浙江省杭州市着眼制约基层治理效能提升的关键性问题,坚持“大抓基层、重抓党建”鲜明导向,以提升村社党组织组织力为重点,探索开展“争星晋位、...

    时间:09-19
  • 台湾地震已致1死146伤 赤科山、六十石山仍多人受困

      中新网9月19日电 18日14时44分台湾花莲县发生6.9级地震。据台湾“中央社”报道,根据台湾灾害应变中心19日最新灾情统计,截至19日上午8时止共造成1死、146伤,赤科山和六十石山仍有多名旅客受困,已积极抢修和协...

    时间:09-19
  • 喜迎二十大 | 上海:奋楫争先立潮头

      新华社上海9月18日电 题:努力把国家战略势能转化为高质量发展效能,2500万申城干部群众以实干笃行迎接党的二十大——  上海:奋楫争先立潮头  新华社记者姜微、何欣荣、杨有宗  浦江两岸流光溢彩,东海之...

    时间:09-19
  • 讲好用好新时代“大思政课”

      讲好用好新时代“大思政课”(人民时评)  我们党立志于中华民族千秋伟业,必须培养一代又一代拥护中国共产党领导和我国社会主义制度、立志为中国特色社会主义事业奋斗终身的有用人才。思想政治理论课是落实立德...

    时间:09-19
  • 国家林草局:近十年中国为全球贡献了四分之一的新增森林面积

      中新网9月19日电 9月19日,中共中央宣传部举行“中国这十年”系列主题新闻发布会,介绍新时代自然资源事业的发展与成就有关情况。国家林业和草原局副局长李春良指出,近十年中国为全球贡献了四分之一的新增森林面...

    时间:09-19
  • 破防了!“中华大地由我们守护,请先辈们放心”

    “魂兮归来,毋滞异乡陵园信美,松菊清芳......”第九批在韩中国人民志愿军烈士遗骸安葬仪式悼念词全文一经发布很多网友表示“看哭了”烈士们的故事更是触动战友们的心“退役军人向英雄致敬”“我们接过前辈的钢枪若...

    时间:09-19
  • 贵州新增本土确诊病例12例 新增本土无症状感染者352例

      中新网9月19日电 据贵州省卫健委网站消息,2022年9月18日0—24时:全省当日阳性并诊断为确诊病例的2例(贵阳市2例)、无症状感染者35例(贵阳市35例)。  另有之前已隔离管控救治的阳性人员诊断为确诊病例10例(贵阳...

    时间:09-19
免责声明:本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。 本网站转载图片、文字之类版权申明,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。