加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

它的创作者声称微软的VALL-E2能令人信服的只用几秒钟的音频重创人声

(2024-07-15 09:39:39)
标签:

it

杂谈

它的创作者声称微软的VALL-E 2能令人信服的只用几秒钟的音频重创人声

By Owen Hughes

 published July 10, 2024

Artificial Intelligence

当您通过我们网站上的链接购买时我们可能会获得联盟佣金。这里是它如何哦你工作Here’s how it works.

它的创作者声称微软的VALL-E2能令人信服的只用几秒钟的音频重创人声

VALL-E 2是一个文本到语音(TTS)生成器,能只用几秒钟的音频再现一个人类说话者的声音。(Image credit: Varunyu via Getty Images)

微软已经开发了一种新的人工智能(AI)语音生成器,显然的是如此令人信服它不能向公众发布。

VALL-E 2是一个文本到语音(TTS)生成器,能只用几秒钟的音频再现一个人类说话者的声音。

微软研究人员在617日出现在预打印服务器arXiv上的一篇论文中说,VALL-E 2能够产生与人类表现可比较的刚好是原始说话者的 “准确的、自然的语音”。换句话说,新的人工智能语音生成器是足够令人信服被误认为是一个真人——至少按照它的创建者。

研究人员在论文中写道,“VALL-E 2是神经编解码器语言模型的最新进展,标志着在零样本文本到语音合成(TTS)中的一个里程碑,首次取得人类对等。此外,VALL-E 2始终如一的合成高质量的语音,甚至对传统上由于它们的复杂性或重复短语挑战性的句子”

在这个上下文中的人类对等意味着由VALL-E 2生成的语音匹配了或超过了由微软使用的基准测试中的人类语音的质量。

人工智能引擎能够做到这一点鉴于它包含两个关键特征:“重复晓知采样”和“分组代码建模”

https://www.livescience.com/technology/artificial-intelligence/ai-speech-generator-reaches-human-parity-but-its-too-dangerous-to-release-scientists-say

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有