OuteTTS-0.1-350M:一种新颖的文本转语音合成方法，具有零样本语音克隆功能

aiuc • 2024年11月6日上午11:24 • AI资讯 • 阅读 7

近日，Oute AI 发布了一种新颖的文本转语音合成方法，称为 OuteTTS-0.1-350M。这种方法利用纯语言建模，无需外部适配器或复杂架构，提供了一种简化的 TTS 方法。OuteTTS-0.1-350M 基于 LLaMa 架构，使用 WavTokenizer 直接生成音频标记，使得流程更加高效。

该模型具有零样本语音克隆功能，仅需几秒钟的参考音频即可复制新的声音。OuteTTS-0.1-350M 专为设备性能而设计，并与 llama.cpp 兼容，使其成为实时应用的理想选择。尽管该模型的参数规模相对较小（3.5亿个），但其性能可与更大、更复杂的 TTS 系统相媲美。

OuteTTS-0.1-350M 的可访问性和效率使其适用于广泛的应用，包括个性化助理、有声读物和内容本地化。Oute AI 在 CC-BY 许可下发布，鼓励进一步实验和集成到不同的项目中，使先进的 TTS 技术民主化。

OuteTTS-0.1-350M 的发布标志着文本转语音技术向前迈出了关键一步，它利用简化的架构以最少的计算要求提供高质量的语音合成。它集成了 LLaMa 架构，使用了 WavTokenizer，并且能够执行零样本语音克隆而无需复杂的适配器，这使它有别于传统的 TTS 模型。

地址：https://www.outeai.com/blog/OuteTTS-0.1-350M

本文由「aiuc」编辑整理，文章链接：https://www.aiuc.net/11875

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

OuteTTS-0.1-350M:一种新颖的文本转语音合成方法，具有零样本语音克隆功能

相关推荐

发表回复