MultiTalk是什么
MultiTalk 是中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。框架根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。框架推出 Label Rotary Position Embedding (L-RoPE) 方法,有效解决多声道音频与人物绑定的问题,借助部分参数训练和多任务训练策略,保留基础模型的指令跟随能力。MultiTalk 在多个数据集上表现出色,展示了强大的视频生成能力,适用生成卡通、歌唱及遵循指令的视频等多种场景。

MultiTalk的主要功能
- 音频驱动的多人对话视频生成:根据多声道音频输入、参考图像和文本提示,生成包含多人互动且口型与音频一致的视频。
- 解决音频与人物绑定问题:jiyu Label Rotary Position Embedding (L-RoPE) 方法,有效解决多声道音频与人物绑定的问题,避免音频错误绑定到错误的人物上。
- 强大的指令跟随能力:基于部分参数训练和多任务训练策略,保留基础模型的指令跟随能力,根据文本提示生成符合要求的视频内容。
MultiTalk的技术原理
- 音频驱动的视频生成框架:MultiTalk 用基于 Diffusion-in-Transformer (DiT) 的视频扩散模型作为基础架构。架构结合 3D Variational Autoencoder (VAE),对视频的时空维度进行压缩,高效地生成视频内容。基于扩散模型的逆过程,逐步从噪声中重建视频内容。3D VAE用在视频的编码和解码,将视频帧压缩到低维空间,便于模型处理。
- 音频特征提取:为将音频特征与视频内容相结合,MultiTalk 引入音频交叉注意力机制。基于 Wav2Vec 提取音频特征,对音频特征进行时间维度的压缩,匹配视频的帧率。在每个 DiT 块中添加音频交叉注意力层,让视频生成过程根据音频特征动态调整视频内容。
- Label Rotary Position Embedding (L-RoPE):为视频中的每个人物和背景分配不同的标签范围。基于旋转位置嵌入技术,将标签信息融入到音频和视频的特征中,确保音频与人物的正确绑定。
- 自适应人物定位:为动态跟踪视频中每个人物的位置,用自适应人物定位方法。基于参考图像和生成视频的自注意力图,模型自动识别每个人物的位置,实现精准的音频绑定。
- 训练策略:第一阶段专注于单人动画,第二阶段处理多人动画。部分参数训练只更新音频交叉注意力层和音频适配器的参数,冻结其他网络参数,保留基础模型的指令跟随能力。
- 多任务训练:结合音频+图像到视频(AI2V)任务和图像到视频(I2V)任务,用不同的数据集进行训练,提升模型的综合性能。
MultiTalk的项目地址
- 项目官网:https://meigen-ai.github.io/multi-talk/
- GitHub仓库:https://github.com/MeiGen-AI/MultiTalk
- HuggingFace模型库:https://huggingface.co/MeiGen-AI/MeiGen-MultiTalk
- arXiv技术论文:https://arxiv.org/pdf/2505.22647
MultiTalk的应用场景
- 影视与娱乐:用在动画电影、特效制作、游戏过场动画等,生成多人对话和互动场景,提升制作效率和视觉效果,增强观众的沉浸感。
- 教育与培训:在在线教育、虚拟课堂、语言学习等领域,创建互动教学视频,模拟真实对话和交流场景,提高学习效果和趣味性。
- 广告与营销:生成产品演示视频、虚拟客服互动视频等,增强广告吸引力,提升客户服务效率和质量,促进产品推广。
- 社交媒体与内容创作:制作创意多人对话视频、虚拟直播等,吸引用户关注和分享,提升内容的趣味性和互动性,增加用户粘性。
- 智能服务:应用在智能客服、虚拟助手等领域,生成自然流畅的交互视频,提供更人性化的服务体验,提高用户满意度。