首页  »  财经  »  经济观察

趣丸科技任少峰:声音领域AI技术发展前景广阔

2024-11-22 11:00:00

来源:人民网 原创稿

趣丸科技副总裁、总编辑任少峰。 人民网记者 任峰涛摄

聚焦当下,人工智能技术在声音领域取得了哪些成果?展望未来,AIGC技术还有望在哪些场景落地应用?11月20日,“人民之夜@乌镇咖荟”在浙江乌镇成功举办,趣丸科技副总裁、总编辑任少峰在现场接受了人民网记者专访。

人民网:在声音领域,人工智能技术目前取得了哪些成果?

任少峰:首先是开源语音大模型。例如,趣丸科技与香港中文大学深圳校区合作研发的开源语音大模型“MaskGCT”,它训练于10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成,可用于声音克隆、语音生成,降低视频制作、内容播报等场景中的语音录制成本,使更多相关从业者从中受益。

其次是音乐生成大模型“天谱乐(TemPolor)”。用户通过提供关键词、音频、照片或视频等素材,即可在平台上生成包含人声、唱词、乐器,多种曲风的歌曲。目前,这项技术已应用于短视频和影视创作,如影视公司自制微短剧的配乐。未来,行业将继续降低这项技术门槛,让它实现更加“普惠化”发展。

人民网:今后人工智能技术还有哪些潜在的应用场景?

任少峰:我从已经有了一定基础的场景,到未来可能发挥作用的场景进行展望:

一是兼具可视化数字形象以及实时交互能力的智能客服系统。目前我们已经开发了一站式数字人生成平台,仅需一张照片便可以生成独特的数字人“分身”,根据给定知识库自主为用户解答问题。

二是为中小型商家提供数字人直播带货服务。仅需每月支付一定服务费,即可实现24 小时不间断直播。

三是促进文化出海。智能翻译系统可将海量微短剧翻译为其他国家语言,同时精准对应音色、口型与表情,从而降低人力成本,助力文化传播。

四是人物、物体和场景的三维重建。它的应用场景包括家居设计、游戏设计等领域,可以显著提高生产效率。此外,这项技术还有望与3D打印机相结合,将AIGC重建的模型转化为实物。

人民网:当前人工智能技术应用场景拓展存在哪些难点?

任少峰:结合我们的日常工作经验,当前人工智能技术应用场景拓展存在的“堵点”主要有三个方面,首先是人工智能团队任务繁重,既要进行基础技术研究又要承接产品需求;其次是人工智能技术应用端行业缺乏将人工智能与业务相结合的具体思路;三是缺乏能将技术与应用结合起来的“中游”咨询机构、中介机构,希望未来社会各界能在促进技术与应用融合方面做出更多尝试。

相关阅读:

量子之歌李鹏:以数字技术赋能老年教育

震坤行刘阳:以数智之力调降工业品采购“三高”

星云智慧李明:机器人产业很可能是下一个汽车产业

  • 相关阅读
免责声明:本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。 本网站转载图片、文字之类版权申明,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。