Qwen VLo是什么
Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感知到生成的跨越。能精准理解图像内容,在此基础上进行一致性和高质量的生成。用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰,模型能灵活响应并生成符合预期的结果。Qwen VLo 支持多语言指令,打破语言壁垒,为全球用户提供便捷的交互体验。具备动态分辨率训练与生成的能力,支持任意分辨率和长宽比的图像生成,适用于多种场景。

Qwen VLo的主要功能
-
精准内容理解与再创造:Qwen VLo 能精准理解图像内容,在生成过程中保持高度的语义一致性。例如,用户可以上传一张汽车照片并要求“更换颜色”,模型能准确识别车型,能保留原图的结构特征,完成色彩风格的自然转换。
-
开放指令编辑与修改:用户可以通过自然语言提出各种创意性指令,如“将这张画风改为梵高风格”或“给这张图片添加一个晴朗的天空”。模型能灵活响应这些指令,完成艺术风格迁移、场景重构、细节修饰等任务,可以一次性完成包含多个操作的复杂指令。
-
多语言指令支持:Qwen VLo 支持中文、英文等多种语言指令,打破了语言壁垒,为全球用户提供了便捷的交互体验。
-
动态分辨率生成:模型采用动态分辨率训练,支持任意分辨率和长宽比的图像生成,适用于海报、插图、网页 Banner 等多种场景。
-
渐进式生成机制:Qwen VLo 以一种从左到右、从上到下逐步清晰的方式生成图像,可以实时观察生成过程并进行调整,获得更灵活、更可控的创作体验。
-
图像检测与标注:Qwen VLo 可以完成对已有信息的标注任务,如检测、分割、边缘检测等。
-
文本到图像生成:Qwen VLo 支持根据文本描述直接生成图像,包括通用图像和中英文海报等。
Qwen VLo的技术原理
-
模型架构:Qwen VLo 的架构主要由以下几个关键模块组成:
- 视觉编码器(Visual Encoder):采用 Vision Transformer(ViT)架构,将输入图像分割成多个固定大小的 Patch,并将其转换为序列化的特征向量。为了支持动态分辨率,Qwen VLo 修改了 ViT,去除了原始的绝对位置嵌入,并引入了 2D-RoPE(Rotary Position Embedding)来捕获图像的二维位置信息。
-
输入投影层(Input Projector):通过一个单层的交叉注意力模块(Cross-Attention),将视觉特征序列压缩到固定长度(例如 256),以提高处理效率。同时,该模块会整合二维绝对位置编码,以保留位置信息。
-
大型语言模型(LLM):以 Qwen-7B 为基础,使用预训练权重进行初始化,负责处理语言模态的输入。
-
输出投影层(Output Projector):将 LLM 生成的特征映射到模态生成器可理解的特征空间,通常是一个简单的 Transformer 层或 MLP 层。
-
模态生成器(Modality Generator):基于 LDM(Latent Diffusion Models)的衍生模型,负责生成最终的图像输出。
-
动态分辨率机制:Qwen VLo 引入了动态分辨率机制,能处理任意分辨率的图像输入:
-
动态视觉标记转换:模型根据输入图像的分辨率动态生成可变数量的视觉标记(tokens),避免了将高分辨率图像缩放到低分辨率而导致的信息丢失。
-
智能 Resize:在推理阶段,图像会被调整为 28 的整数倍尺寸,尽可能保持宽高比,避免失真。
-
Token 压缩:通过一个简单的 MLP 层,将相邻的 2×2 tokens 压缩为单个 token,以减少视觉输入的序列长度。
-
-
训练方法:Qwen VLo 的训练分为三个阶段:
-
第一阶段:单任务大规模预训练:使用大量图文对数据进行预训练,训练数据的图片统一处理为 224×224 的尺寸。此阶段主要训练模型的视觉模态对齐语言模型的能力。
-
第二阶段:多任务预训练:使用更高分辨率(448×448)的数据,引入多个视觉和文本生成任务,提升模型的多模态任务处理能力。
-
第三阶段:指令微调(SFT):通过人工标注、模型生成等方式构造多模态多轮会话数据,提升模型的指令遵循能力和对话能力。
-
- 渐进式生成机制:Qwen VLo 采用从左到右、从上到下的渐进式生成方式,逐步构建图像内容。在生成过程中,模型会不断调整和优化预测内容,确保最终结果的和谐一致。适用于需要精细控制的长段落文字生成任务,用户可以实时观察生成过程并进行调整。
- 多模态融合:Qwen VLo 通过将视觉特征和语言特征融合,实现了多模态数据的统一处理。模型能根据用户输入的文本指令对图像进行编辑、风格迁移、生成等操作,支持多语言指令。
如何使用Qwen VLo
-
访问 Qwen Chat:访问 Qwen Chat 的官网。
-
上传图像或输入文本:将图像上传到平台,或者输入文本指令。
-
输入指令:根据需求输入自然语言指令,例如“将这张画风改为梵高风格”或“给这张图片添加一个晴朗的天空”。
-
查看生成结果:模型会根据指令生成图像或进行编辑,显示结果。
Qwen VLo的应用场景
- 图像编辑与生成:Qwen VLo 可以将图像的风格从一种转换为另一种,例如将卡通风格转换为写实风格。
- 视觉问答(VQA):Qwen VLo 能回答与图像内容相关的问题,例如描述图像中的场景、识别图像中的物体等。
-
文档解析:Qwen VLo 可以解析图像类文档(如扫描件或图片PDF),识别其中的文本、图像和表格等元素的位置信息。
-
文字识别与信息抽取:支持从图像中识别文字、公式,或抽取票据、证件、表单中的信息。
- 视频理解:Qwen VLo 能分析视频内容,例如对视频中的事件进行定位并获取时间戳,或生成关键时间段的摘要。
- 设计与创意:Qwen VLo 可以为设计师、营销人员、教育工作者等提供强大的工具支持,快速实现创意,例如生成海报、插图等。