微软发布 AI 声音生成工具 VALL-E
微软最近发布了一款名为 VALL-E 的人工智能工具,只需 3 秒音频即可模仿人说话。
微软发布 AI 声音生成工具 VALL-E
这个工具经过60000小时的英语语音数据练习,并且使用3秒的特定语音剪辑来生成内容。不像现在的许多人工智能工具,VALL-E能复制演讲者的情绪和语气,即使演讲者自己从未说过的话也能模仿。
一篇关于康奈尔大学的论文。VALL-E产生了几种声音,我们可以GitHub上倾听这些AI合成音频。
研究人员指出,在很多情况下,Vall-E性能优于当前文本到语音转换模型。然而,该研究还写道,目前人工智能模型存在几个问题。例如,文本提醒中的一些单词可能发音不清晰,在导出中完全遗漏或出现两次。此外,目前这种模式很难模仿一些声音,尤其是含有口音的声音。
像其他AI新技术是一样的,VALL-E同时也引起了安全、伦理等方面的担忧。微软发布了关于使用的信息。VALL-E道德声明,但在未来的应用中并未明确说明。