趣丸科技任少峰：声音领域AI技术发展前景广阔-商洛之窗

趣丸科技副总裁、总编辑任少峰。人民网记者任峰涛摄

聚焦当下，人工智能技术在声音领域取得了哪些成果？展望未来，AIGC技术还有望在哪些场景落地应用？11月20日，“人民之夜@乌镇咖荟”在浙江乌镇成功举办，趣丸科技副总裁、总编辑任少峰在现场接受了人民网记者专访。

人民网：在声音领域，人工智能技术目前取得了哪些成果？

任少峰：首先是开源语音大模型。例如，趣丸科技与香港中文大学深圳校区合作研发的开源语音大模型“MaskGCT”，它训练于10万小时数据集Emilia，是全球最大且最为多样的高质量多语种语音数据集之一，精通中英日韩法德6种语言的跨语种合成，可用于声音克隆、语音生成，降低视频制作、内容播报等场景中的语音录制成本，使更多相关从业者从中受益。

其次是音乐生成大模型“天谱乐(TemPolor)”。用户通过提供关键词、音频、照片或视频等素材，即可在平台上生成包含人声、唱词、乐器，多种曲风的歌曲。目前，这项技术已应用于短视频和影视创作，如影视公司自制微短剧的配乐。未来，行业将继续降低这项技术门槛，让它实现更加“普惠化”发展。

人民网：今后人工智能技术还有哪些潜在的应用场景？

任少峰：我从已经有了一定基础的场景，到未来可能发挥作用的场景进行展望：

一是兼具可视化数字形象以及实时交互能力的智能客服系统。目前我们已经开发了一站式数字人生成平台，仅需一张照片便可以生成独特的数字人“分身”，根据给定知识库自主为用户解答问题。

二是为中小型商家提供数字人直播带货服务。仅需每月支付一定服务费，即可实现24 小时不间断直播。

三是促进文化出海。智能翻译系统可将海量微短剧翻译为其他国家语言，同时精准对应音色、口型与表情，从而降低人力成本，助力文化传播。

四是人物、物体和场景的三维重建。它的应用场景包括家居设计、游戏设计等领域，可以显著提高生产效率。此外，这项技术还有望与3D打印机相结合，将AIGC重建的模型转化为实物。

人民网：当前人工智能技术应用场景拓展存在哪些难点？

任少峰：结合我们的日常工作经验，当前人工智能技术应用场景拓展存在的“堵点”主要有三个方面，首先是人工智能团队任务繁重，既要进行基础技术研究又要承接产品需求；其次是人工智能技术应用端行业缺乏将人工智能与业务相结合的具体思路；三是缺乏能将技术与应用结合起来的“中游”咨询机构、中介机构，希望未来社会各界能在促进技术与应用融合方面做出更多尝试。

相关阅读：

量子之歌李鹏：以数字技术赋能老年教育

震坤行刘阳：以数智之力调降工业品采购“三高”

星云智慧李明：机器人产业很可能是下一个汽车产业

趣丸科技任少峰：声音领域AI技术发展前景广阔

国家金融监督管理总局：银行业和保险业金融服务持续加强

指数加快“上新” 满足投资者多样化投资需求

熊猫债年内发行额超1880亿元规模稳步增长结构持续优化

国家数据局就《国家数据基础设施建设指引（征求意见稿）》公开征求意见明确数据基础设施建设阶段性目标

五部门多措并举促进外贸稳定增长

税务总局发布《2019年以来系列税费支持政策即问即答汇编》

中国新增对9国试行免签免签国家占入境游订单超三成

金融监管总局：三季度末银行业金融机构用于小微企业的贷款余额79.8万亿元

财政部印发通知结算2023年度中央财政农业保险保费补贴资金

数据跨境流动政策加码推动全球数字经济融合与发展