FireRedTTS-2是什么
FireRedTTS-2 是先进的长格式流式文本转语音(TTS)系统,专注于多说话人对话生成。采用12.5Hz流式语音分词器和双Transformer架构,能实现低延迟、高保真、多语言的语音合成。支持英语、中文、日语、韩语、法语、德语和俄语等多种语言,具备零样本跨语言及语码转换语音克隆能力。目前支持4个说话人的3分钟对话生成,可以通过扩展训练语料进一步延长对话时长和增加说话人数量。在播客生成和聊天机器人集成方面表现出色,提供稳定、自然的语音输出,可以根据上下文生成富有情感的语音。

FireRedTTS-2的主要功能
-
长对话语音生成:支持4个说话人的3分钟对话生成,可扩展训练语料以增加对话时长和说话人数量。
-
多语言支持:涵盖英语、中文、日语、韩语、法语、德语、俄语等,具备零样本跨语言及语码转换语音克隆能力。
-
低延迟与高保真:在L20 GPU环境下,首次数据包延迟低至140毫秒,适合实时交互场景,同时保证高质量音频输出。
-
稳定语音输出:在独白与对话测试中,生成语音与目标说话人相似度高,语音识别错误率低,能维持稳定的音质与韵律。
-
随机音色生成:可生成随机特征的语音,适用于构建语音识别模型训练数据或为语音交互系统提供多样化测试素材。
-
情感韵律生成:在聊天机器人集成中,能根据上下文生成富有情感的语音,提升交互体验。
-
实时流式生成:采用12.5Hz流式语音分词器,支持高保真流式解码,适合实时应用。
FireRedTTS-2的技术原理
-
12.5Hz流式语音分词器:以低帧率运行,能编码更丰富的语义信息,缩短语音序列,稳定文本到分词的建模,支持高保真流式解码,适合实时应用。
-
双Transformer架构:采用文本-语音交错格式,将标记了说话人的文本与对齐的语音分词按时间顺序连接起来,用双Transformer进行建模。一个大型的解码器仅Transformer预测第一层的分词,而一个较小的Transformer完成后续层。
-
多语言建模:通过多语言预训练,支持多种语言的语音生成,具备零样本跨语言及语码转换语音克隆能力,能适应不同语言的对话场景。
-
低延迟设计:优化了模型架构和推理流程,确保在L20 GPU环境下,首次数据包延迟可低至140毫秒,满足实时交互的需求。
-
长对话支持:通过高效的分词和建模机制,支持4个说话人的3分钟对话生成,并可通过扩展训练语料进一步延长对话时长和增加说话人数量。
-
上下文感知韵律:在生成语音时,能够根据上下文信息调整韵律和情感,使语音输出更加自然和富有表现力。
FireRedTTS-2的项目地址
- 项目官网:https://fireredteam.github.io/demos/firered_tts_2/
- Github仓库:https://github.com/FireRedTeam/FireRedTTS2
- arXiv技术论文:https://arxiv.org/pdf/2509.02020v1
FireRedTTS-2的应用场景
-
播客生成:能生成多说话人的播客内容,支持多种语言,提供稳定且自然的语音输出,适合制作多语言播客节目。
-
聊天机器人:可以集成到聊天框架中,根据上下文生成富有情感的语音,提升交互体验,适用于各种聊天机器人应用。
-
语音克隆:支持零样本跨语言及语码转换语音克隆,能生成与目标说话人相似度高的语音,适用于语音克隆相关应用。
-
语音交互系统:可用于构建语音交互系统,提供多样化的测试素材,支持随机音色生成,满足不同场景的需求。
-
语音识别模型训练:能生成随机特征的语音,适用于构建语音识别模型训练数据,减少对真实录音数据的依赖。
-
多语言语音合成:支持多种语言的语音合成,适用于需要多语言支持的语音应用,如国际会议、多语言客服等场景。