Kimi-VL–月之暗面开源的轻量级多模态视觉语言模型

Kimi-VL是什么

Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于 Mixture-of-Experts (MoE) 架构,总参数量为16B,推理时仅激活2.8B。Kimi-VL具备强大的多模态推理、长文本理解及agent交互能力,支持128K扩展上下文窗口和高分辨率视觉输入。在数学推理、长视频理解等任务中表现优异,超越GPT-4o等模型。Kimi-VL推出推理增强版 Kimi-VL-Thinking,基于长链推理微调和强化学习,进一步提升长期推理能力。

Kimi-VL

Kimi-VL的主要功能

  • 多模态推理:支持处理图像、视频和文本等多种输入形式,支持复杂的多模态任务。
  • 长文本理解:配备 128K 扩展上下文窗口,处理长视频和长文档输入。
  • 数学推理:基于长链推理(CoT)监督微调和强化学习(RL),具备强大的数学推理能力。
  • Agent 交互能力:支持进行多轮对话和复杂任务的逐步推理。
  • 高分辨率视觉输入:支持处理超高分辨率的视觉输入,同时保持较低的计算成本。

Kimi-VL的技术原理

  • 基础架构:基于 MoE 架构,在推理时激活部分参数(2.8B),显著降低计算成本。基于 SigLIP-SO-400M 微调,能够处理高分辨率视觉输入。多层感知机(MLP)投影器将视觉特征和语言特征对齐,增强多模态融合效果。
  • 预训练阶段
    • 独立 ViT 训练:对视觉编码器进行独立训练,建立健壮的视觉特征提取能力。
    • 联合训练:包括预训练、冷却和长上下文激活三个阶段,同时增强模型的语言和多模态能力。
    • 后训练阶段:在 32K 和 128K 上下文中进行联合微调,进一步提升模型的多模态理解能力。基于长链推理任务进行微调,增强模型的长期推理能力。
  • 强化学习(RL):进一步优化模型的推理能力,在复杂任务中表现更优。

Kimi-VL的项目地址

  • GitHub仓库:https://github.com/MoonshotAI/Kimi-VL
  • HuggingFace模型库:https://huggingface.co/collections/moonshotai/kimi-vl
  • 技术论文:https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf

Kimi-VL的应用场景

  • 智能客服:用在多轮对话,解答用户问题,支持图文结合的交互。
  • 教育辅导:辅助学生学习,提供图文并茂的解答和教学材料。
  • 内容创作:生成图文、视频内容,辅助视频编辑和创意生成。
  • 医疗辅助:分析医学影像,提供初步诊断建议和健康咨询。
  • 企业办公:处理长文档,提取关键信息,支持智能会议服务。

相关文章