VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音 - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 23:48:41

VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

发布日期:2023-01-10 00:13:53 稿源：cnBeta.COM

自从第一个文本到语音（TTS）模型发布以来，研究人员一直在寻找让计算机系统产生语音的方法，微软的最新模型VALL-E是在这方面的一个重要进步。VALL-E是一个基于转换器的TTS模型，只需听到三秒钟的声音样本就能生成任何声音的语音。这比以前的模型有很大的改进，以前的模型需要更长的训练时间才能生成新的声音。

对于计算机行业来说，VALL-E是一项惊人的技术壮举，有可能改变我们与数字媒体互动的方式。语音的音调、魅力和风格都在生成的语音中保持不变，这是在使TTS系统听起来更自然方面迈出的重要一步。

微软会不会基于这项技术有更多运用目前还不清楚，然而，微软已经发布了该模型的几个实例，很明显，这是TTS技术的一个重大进步。

您可以在这里收听范例：

https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/

查看网友评论返回完整版观看

最新资讯

加载中...

索尼宣布2028年停产PlayStation实体游戏光盘全面转向数字发行

索尼放弃实体盘后愤怒玩家碾碎PS5主机

苹果降级即将发布的iPhone 18 Pro的1TB和2TB版本的NAND闪存

知情人士：Anthropic正与三星洽谈定制AI芯片代工合作

微软Defender漏洞被证实与勒索软件攻击相关

亚马逊低轨卫星网络进入关键节点有能力点亮“星链”对手

南加州地下应力水平逼近千年高位潜藏巨大风险

NASA 卫星锁定罕见海底火山喷发或催生最新小岛

苹果公司将折叠屏 iPhone的备货规模提升至1000万部

2026年6月Steam硬件调查三款RTX 50系列显卡进入前十

这是要回到PS4时代？吉田修平锐评Steam Machine

今日最热

加载中...

直播事故？影视飓风创始人Tim节目中情绪失控险些动手

苹果供应链最严重的一次泄露泄的不是新iPhone长什么样

一年吃掉一块固态硬盘 Codex日志bug被骂劣质软件

研究发现穷女孩和富女孩拍照风格有很大差异

AI技术重大突破：内存涨价将遇狙击内存用量大降

Google为macOS推出Gemini Spark 本地文件自动化功能上线

DC重启遭重挫《超女》票房惨败预计亏损上亿美元

苹果计划于年底推出M6版MacBook Pro 2027年上半年再发M7机型

据传苹果“隐藏邮件地址”被曝漏洞真实邮箱恐遭泄露

安兔兔发文称某设备宣传的跑分存疑不予认可疑似点名红魔

苹果寻求从长鑫与长江存储采购内存芯片缓解全球缺货压力

返回上一页首页 | cnbeta报时: 23:48:41

文字版标准版电脑端

© 2003-2026