喜马拉雅自研珠峰语音生成式大模型
2023-11-06 10:24:19
喜马拉雅珠峰语音生成模型具有快速实现语音质量和风格定制的能力。
喜马拉雅自研珠峰语音生成式大模型
在2023年云栖会议上,喜马拉雅展示了其最新的自主语音技术成果,包括喜马拉雅珠峰语音生成模型和第二代智能语音交互系统。
据报道,喜马拉雅珠峰语音生成模型具有快速实现语音质量和风格定制的能力。该技术支持丰富场景中音色的即时转换,赋予声音创造性的“声音变化”能力,就像在声音上涂上不同的“皮肤”一样。此前,喜马拉雅珠穆朗玛峰实验室团队通过AIGC创作了3.7万张有声书专辑,每天播放250多万小时。
在云栖大会现场,喜马拉雅展示了其自主研发的珠峰语音生成模型。大模型由喜马拉雅珠穆朗玛峰智能团队与西北理工大学aslplab合作,基于自主研发框架,实现统一框架下音频和文本的密集训练,用于语音生成任务,可实现语音风格和音色的学习和转移,实现风格和音色的任意组合,同时,喜马拉雅基于阿里云数据湖3.0云本地大数据平台为语音大模型培训提供了大量高质量的数据,是喜马拉雅语音大模型不可缺少的“数据引擎”。
据喜马拉雅首席科学家、珠峰实验室负责人卢恒介绍,“喜马拉雅语音生成模型在5秒内完成了“快速复制”声音,在音质定制方面取得了显著突破。通过少量数据,模型可以复制90%相似的基本音质,并在短短10秒内快速生成定制音频。未来,该技术有望在短视频创作、数字人配音、人机交互对话、名人IP复制等领域发挥巨大的潜在价值,有效解决商业场景中的沟通需求痛点。”
喜马拉雅珠峰实验室高级产品专家吕瑞涛现场介绍:大型语音模型采用基于语音向量和语义标记的新型语音编解码器,包括高保真语音重建的声学细节和语义标记(LLM)它侧重于语言建模的语言内容,最终实现最具语言表现力和最高保真度的语音(对话)内容的快速生成。在应用领域,大型语音模型可应用于语音内容生成、口语对话、语音质量即时转换、语音风格迁移、语音跨语言翻译、说话人匿名等任务。
喜马拉雅山还将展示其第二代智能语音交互系统。该系统以阿里云的“通义千问”模型为基础,以喜马拉雅儿童形象代言人“波波”为核心,增强了其自然连贯的对话能力,突出了“波波”IP形象的特点。智能语音交互系统通过喜马拉雅儿童应用程序和喜马拉雅山提供服务,波波球为家庭亲子客户提供公司对话功能。