当前位置:首页 > 职场之路

【超强盘点】最热的14款TTS语音合成/克隆开源项目合集专题!

大家好,最近给大家分享了很多AI开源项目,而随着AI技术的不断发展,TTS语音模型在AI界也是迅速出圈,并且热度不小!小编结合自己了解的TTS模型,给大家做了个TTS模型汇总!文章内容基于项目热度和效果排行,可直接拿来部署使用,觉得对你有帮助记得点赞和收藏哦!也欢迎大家补充指正,感谢大家!

1.自然流畅!ChatTTS:支持中英文对话的文本到语音TTS模型!

ChatTTS是一个专门为对话场景设计的文本到语音模型,支特中英文,能生成自然流畅的对话语音。这个项目提供了基础模型和高级控制方法,可以用来生成带有情感和语调变化的语音。用户可以通过基础代码快速上手,也可以根据需要进行高级定制。

ChatTTS详细主要功能

1.对话式TTS(ConversationalTTS)

2.多说话人支持(MultipleSpeakers)

3.高质量音频(High-QualityAudio)

GitHub:

2.ChatTTS-ui:开箱即用的ChatTTS将文字合成为语音

一个简单的本地网页界面,直接在网页使用ChatTTS将文字合成为语音,支持中英文、数字混杂,并提供API接口,同时支持Windows、Linux、Mac部署。

功能特点:

2.多种配音和翻译渠道

4.免费开源:该代码在GitHub上公开供查看,免费,没有功能限制,也没有隐藏费用

Github:

官网:

3.字节开发!Seed-TTS:几乎完美接近人声的文本到语音(TTS)模型!

Seed-TTS是由字节跳动开发的一种高级文本到语音(TTS)模型系列,能够生成高质量、几乎无法与人类语音区分的语音。该模型可以基于简短的语音片段生成高度自然且富有表现力的语音。

Seed-TTS在多个实验中表现优异,其生成的语音在自然度和说话者相似度上接近人类语音,展示了强大的生成能力和应用潜力。

主要功能

1.高质量语音生成

Seed-TTS是一种能够生成高质量、几乎无法与人类语音区分的语音模型。通过大规模自回归文本到语音(TTS)模型的架构设计,Seed-TTS在语音自然度和说话者相似度方面达到了新的高度。

2.语音属性控制

Seed-TTS提供了对各种语音属性的高级控制能力,包括但不限于情感、语调、说话风格等。通过精调,用户可以灵活地控制生成语音的不同属性,以满足各种应用场景的需求。

3.多样性和表现力

项目及演示:

论文:https://pdf/2406.02430

GitHub:

4.接近人类水平!FishSpeech:开源的支持中英日语言的完美TTS模型!

FishSpeech是一个全新的文本转语音(TTS)解决方案,该项目由fishaudio开发。当前模型使用约十五万小时三语数据训练,对中文支持非常的完美。

能够熟练处理和生成中文、日语和英语的语音,语言处理能力接近人类水平,并且声音表现形式丰富多变。作为一个仅有亿级参数的模型,FishSpeech设计高效轻量,用户可以在个人设备上轻松运行和微调,成为您的私人语音助手。

FishSpeech支持多种不同的语音生成模型,包括但不限于

VITS2:一种基于变分推理的文本到语音型。

Bert-VITS2:结合BERT模型的变分推理文本到语音型

GPTVITS:结合GPT模型的文本到语音模型。

MQTTS:基于量化技术的文本到语音模型。

GPTFast:快速生成语音的GPT模型,

GPT-SOVITS:结合GPT和SoVITS技术的文本到语音模型

GitHub:

在线体验:

5.GPT-SoVITS:开源AI语音克隆工具,智能语音合成的新境界!

想象一下你第一次听到机器发出的声音,听起来就像是人类的声音。你既惊讶又难以置信,对这项技术能走多远充满好奇。GPT-SoVITS不仅突破了界限,还重新定义了界限。这不仅仅是机器说话;而是它们用一种带有人类语言的细微差别、情感和独特性的声音说话,标志着语音技术的未来已经到来。

功能:

零样本文本到语音(TTS):输入5秒的声音样本,即刻体验文本到语音转换。

少样本TTS:仅需1分钟的训练数据即可微调模型,提升声音相似度和真实感。

跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。

WebUI工具:集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和GPT/SoVITS模型。

GitHub:

6.OpenVoice:轻松克隆任何声音用多种语言说话并可控制情感口音

openVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参考发言者的音色。支持的语言包括英语(英国、美国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。

主要功能:

准确的音色克隆:OpenVoice能够精确地克隆参考音色,并在多种语言和口音中生成语音。灵活的声音风格控制:允许用户对声音的情绪、口音、节奏、停顿和语调进行详细的调整,提供个性化的声音输出。

零样本跨语言声音克隆:OpenVoice实现了对大规模多语言数据集之外的语言进行零样本声音克隆,即使这些语言未在训练集中出现也能进行声音复制。

GitHub:

技术报告:

7.Parler-TTS:一个完全开源的高质量ai语音生成项目!

Parler-TTS是一个轻量级的文本到语音(TTS)模型,可以以特定说话者的风格(包括性别、音调、说话风格等)生成高质量、自然听起来的语音。这个模型是根据DanLyth和SimonKing的论文《使用合成注解的高保真文本到语音的自然语言指导》而开发的,DanLyth属于StabilityAI,SimonKing来自爱丁堡大学。

与其他TTS模型不同,Parler-TTS是完全开源发布的。所有的数据集、预处理、训练代码和权重都是公开发布的,这使得社区能够在此基础上建立自己的强大TTS模型。

它能够生成高质量且听起来非常自然的语音。还可以定制说话者的风格(如性别、音调、说话风格等)。与其他TTS模型不同,Parler-TTS完全开源发布,包括数据集、预处理、训练代码和权重。只需一行代码即可安装。此外,它还提供了交互式演示和详细的训练指南,使用户能够快速上手并自定义模型。

开源地址:

8.Ege-TTS文本转语音开源项目

3kstar!支持40多种语言,300多种声音,代替科大讯飞的收费TTS服务完全没问题,它利用了微软AzureCognitiveServices的强大功能,能够将文本信息转换成流畅自然的语音输出。这个库特别适合需要在应用程序中加入语音功能的开发者使用。

Github地址:

9.阿里发布!FUNAudioLLM:能理解和生成各种人类语音的语音处理模型!

FunAudioLLM是阿里巴巴开发的一组语音处理模型,旨在改善人类与大语言模型之间的语音交互,它由两个主要模型构成:SenseVoice和CosyVoice。

SenseVoice:语音识别模型,这个模型可以识别多种语言的语音,识别说话人的情感,检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。

CosyVoice:语音生成模式,这个模型主要生成自然目情感丰富的语音。它可以模仿不同的说话人,甚至可以用几秒钟的音频样本来克隆一个人的声音。

SenseVoice主要专注于多语言语音识别、情感识别和音频事件检测,提供高精度、低延迟的语音处理能力。CosyVoice则侧重于自然语音生成和控制,支持多种语言、音色和说话风格的生成,能够实现零样本学习和细粒度的语音控制。这两者结合,使得FunAudioLLM能够在多种应用场景下提供卓越的语音交互体验。

FUNAudioLLM的应用:

1.语音到语音翻译(Speech-to-SpeechTranslation)

2.情感语音聊天(EmotionalVoiceChat)

3.互动播客(InteractivePodcasts)

4.情感有声书(ExpressiveAudiobooks)

GitHub地址:

10.VoiceCraft:支持克隆语音及修改音频文本的语音模型

特点

1.易用性:简单的用户界面让任何人都可以轻松上手生成和编辑语音

2.实时预览:通过Gradio,用户可以即时听到变化,方便调整。

3.高度可定制:支持多种参数调整,以创建各种风格的声音。

4.开源:完全免费且开源,鼓励社区贡献和改进。

GitHub地址:

11.有道开源!EmotiVoice:具有情绪控制功能的语音合成引擎!

EmotiVoice是一款现代化的开源语音合成引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

技术实现

Emotivoice的核心在于其情感/风,格控制的提示机制。它使用了先进的深度学习模型只,如Tacotron和WaveRNN,来实现高质量的语音输出。此外,EmotiVoice还提供了一个易于使用的Web界面,以及用于批量生成结果的脚本接口。

性能特点

Emotivoice的性能特点包括其多样化的声音选择和高度的情感表达能力。用户可以根据需要选择不同的声音和情感,从而生成更加个性化和富有表现力的语音内容。

GitHub:

12.MetaVoice-1B:高度真实和自然的文本到语音(TTS)转换模型

Metavoice-1B是一个强大的1.2亿参数的文本转语音Q(TTS)模型,训练在10万小时的语音数据上,专注于情感丰富、节奏自然和音调准确的英语发音。这个开源项目不仅实现了零样本美国与英国口音克隆,还支持跨语言的声线定制,并能合成任意长度的文本。MetaVoice-1B的核心目标是提供真实、有感情色彩的语音体验。它允许用户通过短短30秒的参考音频,无样本的复制美国和英国口音,还能利用微调功能进行印度等地区的语音克降,只需1分钟的训练数据即可实现,更重要的是,模型可以处理长篇幅的文本合成任务,打开无限的可能性。

项目特点

无障碍应用:帮助视觉障碍者通过语音阅读网页、文档等内容

个性化播客:生成独特的播客主播声音,无需真人录音

GitHub:

13.OpenAI发布VoiceEngine模型!

VoiceEngine是OpenAl最新公布的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。VoiceEngine的核心功能是从15秒的录音中生成接近说话者音色的自然语音。如果你上传自己的录音和一段文本,它可以使用听起来像你的AI合成语音来读取文本。并且,文本不必是母语。例如,VoiceEngine可以用中文、英语、西班牙语、法语或许多其他语言重新创建你的声音。

VoiceEngine的应用前景广泛,包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流者、帮助恢复患者的声音等。同时,为确保技术的安全使用OpenAl制定了严格的使用政策,防止声音冒充,并采取了包括水印追踪在内的多项安全措施。

GitHub:

14.GitHub开源神器Bark模型!

Bark是由Suno创建的基于转换器的文本到音频模型。Bark可以生成高度逼直的多语言语音以及其他音频。包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。

功能特点:

1.非常真实自然的语音

2.英文效果最佳,其他语言还欠佳

3.支持通过文本生成歌曲

4.支持生成背景噪音、简单的音效

5.支持大笑、叹息、哭泣

GitHub:

AI语音合成#

分享到: