OmniSync是什么
OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架,基于扩散变换器(Diffusion Transformers)实现视频中人物口型与语音的精准同步。OmniSync基于无掩码训练范式直接编辑视频帧,无需参考帧或显式掩码,支持无限时长推理,同时保持自然的面部动态和身份一致性。OmniSync引入流匹配基础的渐进噪声初始化和动态时空分类器自由引导(DS-CFG)机制,解决音频信号弱的问题,确保精确的口型同步。OmniSync建立AIGC-LipSync基准测试,评估AI生成视频中的口型同步性能。

OmniSync的主要功能
- 无掩码训练:直接编辑视频帧,无需参考帧或掩码,支持无限时长推理。
- 身份保持:确保头部姿态和身份一致性,同时精确修改嘴部区域。
- 增强音频条件:基于动态时空引导机制,解决音频信号弱的问题。
- 通用兼容性:适用于风格化角色、非人类实体和AI生成内容。
- 无限时长推理:保持自然面部动态和时间一致性。
- 遮挡鲁棒性:在面部遮挡等复杂条件下保持高质量口型同步。
OmniSync的技术原理
- 无掩码训练范式:基于扩散变换器(Diffusion Transformers)进行直接跨帧编辑,无需显式掩码或参考帧。基于迭代去噪学习映射函数,引入时间步依赖采样策略,根据不同去噪阶段使用不同的数据集,确保稳定学习。
- 渐进噪声初始化:基于流匹配(Flow Matching)注入控制噪声到原始帧中,仅执行最后的去噪步骤,保持空间一致性,支持精确的嘴部区域修改,有效解决姿态不一致和身份漂移问题。
- 动态时空分类器自由引导(DS-CFG):提供对音频影响的精细控制,基于时空自适应引导,平衡音频条件强度。空间自适应引导用高斯加权空间引导矩阵,集中引导强度在嘴部区域。时间自适应引导随着去噪过程的推进,逐渐降低引导强度,确保在早期和中期扩散阶段提供强引导,在后期细化细节时减少干扰。
OmniSync的项目地址
- 项目官网:https://ziqiaopeng.github.io/OmniSync/
- arXiv技术论文:https://arxiv.org/pdf/2505.21448
OmniSync的应用场景
- 影视配音:实现角色口型与配音的精准匹配。
- 虚拟现实:为虚拟角色提供逼真的口型同步,增强沉浸感。
- AI内容生成:提升AI生成视频中口型同步的自然度。
- 视频会议:改善远程通信中的口型同步效果。
- 游戏开发:增强游戏角色的口型表现,提升交互性。