Kling-Foley–可灵AI推出的多模态视频生音效模型

Kling-Foley是什么

Kling-Foley 是可灵 AI 推出的多模态视频生音效模型。模型将视频和文本提示作为条件输入,能生成与视频内容语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容,支持任意时长音频生成。模型基于多模态控制的流匹配架构,用多模态特征融合和特定模块处理,精准实现音视频对齐。模型背后依托大规模自建多模态数据集进行训练,展现出优异的音频生成效果,在音效生成领域处于业内领先水平,为视频内容创作带来更高效、优质的音频解决方案。

Kling-Foley

Kling-Foley的主要功能

  • 高质量音效生成:根据输入的视频内容和可选的文本提示,生成与视频画面语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容,满足不同场景下的音频需求。
  • 任意时长音频生成:支持生成任意时长的音频内容,能动态适应输入视频的长度。
  • 立体声渲染:具备立体声渲染的能力,支持空间定向的声源建模和渲染,让生成的音频具有更强的空间感和沉浸感。

Kling-Foley的技术原理

  • 多模态控制的流匹配模型:Kling-Foley是多模态控制的流匹配模型,核心是将文本、视频和时间提取的视频帧作为条件输入,基于多模态联合条件模块进行融合,输入到MMDit模块进行处理。多模态控制的方式让模型能更好地理解和生成与视频内容相匹配的音频。
  • 模块化处理流程:模型的处理流程包括多个关键模块。多模态特征基于多模态联合条件模块进行融合,输入到MMDit模块预测VAE潜在特征。由预训练的梅尔解码器将潜在特征重建为单声道梅尔声谱图。基于Mono2Stereo模块将单声道声谱图渲染为立体声声谱图,用声码器生成输出波形。
  • 视觉语义表示与音视频同步模块:Kling-Foley架构中引入视觉语义表示模块和音视频同步模块,支持在帧级别上对齐视频条件与音频潜层元素,提升视频语义对齐与音视频同步的效果,确保生成的音频在时间和内容上与视频高度匹配。
  • 离散时长嵌入:Kling-Foley引入离散时长嵌入作为全局条件机制的一部分。让模型更好地处理不同长度的视频输入,生成与视频长度相适应的音频内容。
  • 通用潜层音频编解码器:在音频Latent表征层面,Kling-Foley应用通用潜层音频编解码器(universal latent audio codec),能在音效、语音、歌声和音乐等多样化场景下实现高质量建模。主体是Mel-VAE,联合训练Mel编码器、Mel解码器和鉴别器,让模型学习到连续且完整的潜在空间分布,显著增强音频表征能力。

Kling-Foley的项目地址

  • 项目官网:https://klingfoley.github.io/Kling-Foley/
  • GitHub仓库:https://github.com/klingfoley/Kling-Foley
  • arXiv技术论文:https://www.arxiv.org/pdf/2506.19774

Kling-Foley的应用场景

  • 视频内容创作:为动画、短视频、广告等视频制作提供精准匹配的音效和背景音乐,增强视频的吸引力和专业性,提升创作效率。
  • 游戏开发:生成逼真的场景音效和背景音乐,如武器发射、角色动作、环境音效等,提升游戏的沉浸感和玩家体验。
  • 教育与培训:为教学视频、虚拟培训环境添加合适的音效和背景音乐,增强教学和培训的真实感与吸引力,提高学习效果。
  • 影视制作:为电影、电视剧等影视作品生成高质量的音效和配乐,提升作品的音效质量和剧情感染力。
  • 社交媒体:用户快速为分享的视频添加匹配的音效和背景音乐,提升内容吸引力。

相关文章