当前位置：首页 > 职场之路

【超强盘点】最热的14款TTS语音合成/克隆开源项目合集专题！

2025-04-02

大家好，最近给大家分享了很多AI开源项目，而随着AI技术的不断发展，TTS语音模型在AI界也是迅速出圈，并且热度不小！小编结合自己了解的TTS模型，给大家做了个TTS模型汇总!文章内容基于项目热度和效果排行，可直接拿来部署使用，觉得对你有帮助记得点赞和收藏哦！也欢迎大家补充指正，感谢大家！

1.自然流畅！ChatTTS：支持中英文对话的文本到语音TTS模型！

ChatTTS是一个专门为对话场景设计的文本到语音模型，支特中英文，能生成自然流畅的对话语音。这个项目提供了基础模型和高级控制方法，可以用来生成带有情感和语调变化的语音。用户可以通过基础代码快速上手，也可以根据需要进行高级定制。

ChatTTS详细主要功能

1.对话式TTS(ConversationalTTS)

2.多说话人支持(MultipleSpeakers)

3.高质量音频(High-QualityAudio)

GitHub:

2.ChatTTS-ui:开箱即用的ChatTTS将文字合成为语音

一个简单的本地网页界面，直接在网页使用ChatTTS将文字合成为语音，支持中英文、数字混杂，并提供API接口，同时支持Windows、Linux、Mac部署。

功能特点：

2.多种配音和翻译渠道

4.免费开源：该代码在GitHub上公开供查看，免费，没有功能限制，也没有隐藏费用

Github:

官网:

3.字节开发！Seed-TTS：几乎完美接近人声的文本到语音(TTS)模型！

Seed-TTS是由字节跳动开发的一种高级文本到语音(TTS)模型系列，能够生成高质量、几乎无法与人类语音区分的语音。该模型可以基于简短的语音片段生成高度自然且富有表现力的语音。

Seed-TTS在多个实验中表现优异，其生成的语音在自然度和说话者相似度上接近人类语音，展示了强大的生成能力和应用潜力。

主要功能

1.高质量语音生成

Seed-TTS是一种能够生成高质量、几乎无法与人类语音区分的语音模型。通过大规模自回归文本到语音(TTS)模型的架构设计，Seed-TTS在语音自然度和说话者相似度方面达到了新的高度。

2.语音属性控制

Seed-TTS提供了对各种语音属性的高级控制能力，包括但不限于情感、语调、说话风格等。通过精调，用户可以灵活地控制生成语音的不同属性，以满足各种应用场景的需求。

3.多样性和表现力

项目及演示：

论文：https://pdf/2406.02430

GitHub:

4.接近人类水平！FishSpeech:开源的支持中英日语言的完美TTS模型！

FishSpeech是一个全新的文本转语音(TTS)解决方案，该项目由fishaudio开发。当前模型使用约十五万小时三语数据训练，对中文支持非常的完美。

能够熟练处理和生成中文、日语和英语的语音，语言处理能力接近人类水平，并且声音表现形式丰富多变。作为一个仅有亿级参数的模型，FishSpeech设计高效轻量，用户可以在个人设备上轻松运行和微调，成为您的私人语音助手。

FishSpeech支持多种不同的语音生成模型，包括但不限于

VITS2:一种基于变分推理的文本到语音型。

Bert-VITS2:结合BERT模型的变分推理文本到语音型

GPTVITS:结合GPT模型的文本到语音模型。

MQTTS:基于量化技术的文本到语音模型。

GPTFast:快速生成语音的GPT模型,

GPT-SOVITS:结合GPT和SoVITS技术的文本到语音模型

GitHub:

在线体验:

5.GPT-SoVITS：开源AI语音克隆工具，智能语音合成的新境界！

想象一下你第一次听到机器发出的声音，听起来就像是人类的声音。你既惊讶又难以置信，对这项技术能走多远充满好奇。GPT-SoVITS不仅突破了界限，还重新定义了界限。这不仅仅是机器说话；而是它们用一种带有人类语言的细微差别、情感和独特性的声音说话，标志着语音技术的未来已经到来。

功能：

零样本文本到语音（TTS）：输入5秒的声音样本，即刻体验文本到语音转换。

少样本TTS：仅需1分钟的训练数据即可微调模型，提升声音相似度和真实感。

跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。

WebUI工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和GPT/SoVITS模型。

GitHub：

6.OpenVoice:轻松克隆任何声音用多种语言说话并可控制情感口音

openVoice能对声音风格的精细控制，包括情感、口音、节奏、停顿和语调，同时能够复制参考发言者的音色。支持的语言包括英语(英国、美国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。

主要功能:

准确的音色克隆:OpenVoice能够精确地克隆参考音色，并在多种语言和口音中生成语音。灵活的声音风格控制:允许用户对声音的情绪、口音、节奏、停顿和语调进行详细的调整，提供个性化的声音输出。

零样本跨语言声音克隆:OpenVoice实现了对大规模多语言数据集之外的语言进行零样本声音克隆，即使这些语言未在训练集中出现也能进行声音复制。

GitHub:

技术报告:

7.Parler-TTS：一个完全开源的高质量ai语音生成项目！

Parler-TTS是一个轻量级的文本到语音（TTS）模型，可以以特定说话者的风格（包括性别、音调、说话风格等）生成高质量、自然听起来的语音。这个模型是根据DanLyth和SimonKing的论文《使用合成注解的高保真文本到语音的自然语言指导》而开发的，DanLyth属于StabilityAI，SimonKing来自爱丁堡大学。

与其他TTS模型不同，Parler-TTS是完全开源发布的。所有的数据集、预处理、训练代码和权重都是公开发布的，这使得社区能够在此基础上建立自己的强大TTS模型。

它能够生成高质量且听起来非常自然的语音。还可以定制说话者的风格（如性别、音调、说话风格等）。与其他TTS模型不同，Parler-TTS完全开源发布，包括数据集、预处理、训练代码和权重。只需一行代码即可安装。此外，它还提供了交互式演示和详细的训练指南，使用户能够快速上手并自定义模型。

开源地址：

8.Ege-TTS文本转语音开源项目

3kstar！支持40多种语言，300多种声音，代替科大讯飞的收费TTS服务完全没问题，它利用了微软AzureCognitiveServices的强大功能，能够将文本信息转换成流畅自然的语音输出。这个库特别适合需要在应用程序中加入语音功能的开发者使用。

Github地址：

9.阿里发布!FUNAudioLLM：能理解和生成各种人类语音的语音处理模型！

FunAudioLLM是阿里巴巴开发的一组语音处理模型，旨在改善人类与大语言模型之间的语音交互,它由两个主要模型构成:SenseVoice和CosyVoice。

SenseVoice:语音识别模型，这个模型可以识别多种语言的语音，识别说话人的情感，检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。

CosyVoice:语音生成模式，这个模型主要生成自然目情感丰富的语音。它可以模仿不同的说话人，甚至可以用几秒钟的音频样本来克隆一个人的声音。

SenseVoice主要专注于多语言语音识别、情感识别和音频事件检测，提供高精度、低延迟的语音处理能力。CosyVoice则侧重于自然语音生成和控制，支持多种语言、音色和说话风格的生成，能够实现零样本学习和细粒度的语音控制。这两者结合，使得FunAudioLLM能够在多种应用场景下提供卓越的语音交互体验。

FUNAudioLLM的应用：

1.语音到语音翻译(Speech-to-SpeechTranslation)

2.情感语音聊天(EmotionalVoiceChat)

3.互动播客(InteractivePodcasts)

4.情感有声书(ExpressiveAudiobooks)

GitHub地址：

10.VoiceCraft：支持克隆语音及修改音频文本的语音模型

特点

1.易用性:简单的用户界面让任何人都可以轻松上手生成和编辑语音

2.实时预览:通过Gradio，用户可以即时听到变化，方便调整。

3.高度可定制:支持多种参数调整，以创建各种风格的声音。

4.开源:完全免费且开源，鼓励社区贡献和改进。

GitHub地址：

11.有道开源！EmotiVoice：具有情绪控制功能的语音合成引擎！

EmotiVoice是一款现代化的开源语音合成引擎，支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

技术实现

Emotivoice的核心在于其情感/风,格控制的提示机制。它使用了先进的深度学习模型只,如Tacotron和WaveRNN，来实现高质量的语音输出。此外，EmotiVoice还提供了一个易于使用的Web界面，以及用于批量生成结果的脚本接口。

性能特点

Emotivoice的性能特点包括其多样化的声音选择和高度的情感表达能力。用户可以根据需要选择不同的声音和情感，从而生成更加个性化和富有表现力的语音内容。

GitHub：

12.MetaVoice-1B：高度真实和自然的文本到语音（TTS）转换模型

Metavoice-1B是一个强大的1.2亿参数的文本转语音Q(TTS)模型，训练在10万小时的语音数据上,专注于情感丰富、节奏自然和音调准确的英语发音。这个开源项目不仅实现了零样本美国与英国口音克隆，还支持跨语言的声线定制，并能合成任意长度的文本。MetaVoice-1B的核心目标是提供真实、有感情色彩的语音体验。它允许用户通过短短30秒的参考音频，无样本的复制美国和英国口音，还能利用微调功能进行印度等地区的语音克降,只需1分钟的训练数据即可实现,更重要的是，模型可以处理长篇幅的文本合成任务，打开无限的可能性。

项目特点

无障碍应用:帮助视觉障碍者通过语音阅读网页、文档等内容

个性化播客:生成独特的播客主播声音，无需真人录音

GitHub：

13.OpenAI发布VoiceEngine模型！

VoiceEngine是OpenAl最新公布的一项AI语音合成和声音克隆技术，能够利用简短的15秒音频样本和文本输入，生成接近原声的自然听起来的语音。VoiceEngine的核心功能是从15秒的录音中生成接近说话者音色的自然语音。如果你上传自己的录音和一段文本，它可以使用听起来像你的AI合成语音来读取文本。并且，文本不必是母语。例如，VoiceEngine可以用中文、英语、西班牙语、法语或许多其他语言重新创建你的声音。

VoiceEngine的应用前景广泛,包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流者、帮助恢复患者的声音等。同时,为确保技术的安全使用OpenAl制定了严格的使用政策，防止声音冒充，并采取了包括水印追踪在内的多项安全措施。

GitHub：

14.GitHub开源神器Bark模型！

Bark是由Suno创建的基于转换器的文本到音频模型。Bark可以生成高度逼直的多语言语音以及其他音频。包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如大笑、叹息和哭泣。

功能特点：

1.非常真实自然的语音

2.英文效果最佳，其他语言还欠佳

3.支持通过文本生成歌曲

4.支持生成背景噪音、简单的音效

5.支持大笑、叹息、哭泣

GitHub：

AI语音合成#

【超强盘点】最热的14款TTS语音合成/克隆开源项目合集专题！

相关推荐

事业编制！240个岗位！约么？

别说干泵送了，干工地的年轻人都越来越少

全面从严治检没有完成时、只有进行时

萧县司法局招聘10名基层司法行政辅助人员

职普融通、产教融合，银川——涵养人才“源头活水” 供需对接实现双赢

刘备在汝南施政，利用曹元两军大战之计，召得数万人马