它的创作者声称微软的VALL-E2能令人信服的只用几秒钟的音频重创人声_fzhouy

http://blog.sina.com.cn/u/2614811577

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

它的创作者声称微软的VALL-E2能令人信服的只用几秒钟的音频重创人声

(2024-07-15 09:39:39)

标签：

it

杂谈

它的创作者声称微软的VALL-E 2能令人信服的只用几秒钟的音频重创人声

By Owen Hughes

published July 10, 2024

Artificial Intelligence

当您通过我们网站上的链接购买时我们可能会获得联盟佣金。这里是它如何哦你工作. Here’s how it works.

VALL-E 2是一个文本到语音（TTS）生成器，能只用几秒钟的音频再现一个人类说话者的声音。(Image credit: Varunyu via Getty Images)

微软已经开发了一种新的人工智能（AI）语音生成器，显然的是如此令人信服它不能向公众发布。

VALL-E 2是一个文本到语音（TTS）生成器，能只用几秒钟的音频再现一个人类说话者的声音。

微软研究人员在6月17日出现在预打印服务器arXiv上的一篇论文中说，VALL-E 2能够产生与人类表现可比较的刚好是原始说话者的 “准确的、自然的语音”。换句话说，新的人工智能语音生成器是足够令人信服被误认为是一个真人——至少按照它的创建者。

研究人员在论文中写道，“VALL-E 2是神经编解码器语言模型的最新进展，标志着在零样本文本到语音合成（TTS）中的一个里程碑，首次取得人类对等。此外，VALL-E 2始终如一的合成高质量的语音，甚至对传统上由于它们的复杂性或重复短语挑战性的句子” 。

在这个上下文中的人类对等意味着由VALL-E 2生成的语音匹配了或超过了由微软使用的基准测试中的人类语音的质量。

人工智能引擎能够做到这一点鉴于它包含两个关键特征：“重复晓知采样”和“分组代码建模”

https://www.livescience.com/technology/artificial-intelligence/ai-speech-generator-reaches-human-parity-but-its-too-dangerous-to-release-scientists-say

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：科学家们从膨胀到比正常大数百倍的原子创造诡异的“时间晶体”

后一篇：由詹姆斯韦伯望远镜窥探的“眼球”行星可能是适合居住的

新浪BLOG意见反馈留言板　欢迎批评指正