它的创作者声称微软的VALL-E2能令人信服的只用几秒钟的音频重创人声

标签:
it杂谈 |
它的创作者声称微软的VALL-E 2能令人信服的只用几秒钟的音频重创人声
By
当您通过我们网站上的链接购买时我们可能会获得联盟佣金。这里是它如何哦你工作.
VALL-E 2是一个文本到语音(TTS)生成器,能只用几秒钟的音频再现一个人类说话者的声音。(Image credit: Varunyu via Getty Images)
微软已经开发了一种新的人工智能(AI)语音生成器,显然的是如此令人信服它不能向公众发布。
VALL-E 2是一个文本到语音(TTS)生成器,能只用几秒钟的音频再现一个人类说话者的声音。
微软研究人员在6月17日出现在预打印服务器arXiv上的一篇论文中说,VALL-E 2能够产生与人类表现可比较的刚好是原始说话者的 “准确的、自然的语音”。换句话说,新的人工智能语音生成器是足够令人信服被误认为是一个真人——至少按照它的创建者。
研究人员在论文中写道,“VALL-E 2是神经编解码器语言模型的最新进展,标志着在零样本文本到语音合成(TTS)中的一个里程碑,首次取得人类对等。此外,VALL-E 2始终如一的合成高质量的语音,甚至对传统上由于它们的复杂性或重复短语挑战性的句子” 。
在这个上下文中的人类对等意味着由VALL-E 2生成的语音匹配了或超过了由微软使用的基准测试中的人类语音的质量。
人工智能引擎能够做到这一点鉴于它包含两个关键特征:“重复晓知采样”和“分组代码建模”
https://www.livescience.com/technology/artificial-intelligence/ai-speech-generator-reaches-human-parity-but-its-too-dangerous-to-release-scientists-say