SkyworkUniPic–昆仑万维开源的多模态统一预训练模型

Skywork UniPic是什么

Skywork UniPic 是昆仑万维开源的多模态统一预训练模型,具备图像理解、文本生成图像及图像编辑三大核心能力。模型基于自回归范式,融合 MAR 编码器和 SigLIP2 主干,构建轻量级架构,用 1.5B 参数规模实现高性能,逼近大模型效果。模型基于渐进式多任务训练和优化策略,确保在理解、生成和编辑任务上的卓越表现,支持在消费级显卡上流畅运行,为开发者提供高效、实用的多模态解决方案。

Skywork UniPic

Skywork UniPic的主要功能

  • 图像理解:基于文本提示理解图像内容,完成图文匹配、问答等任务。模型能精准地捕捉图像的语义信息,实现对图像的深度理解。
  • 文本到图像生成:根据用户输入的文本提示,模型能生成高质量的图像。
  • 图像编辑:用户提供参考图像和编辑指令,模型根据指令对图像进行修改,例如替换图像中的元素、调整风格等,支持多种复杂的编辑操作。

Skywork UniPic的技术原理

  • 自回归架构:模型延续 GPT-4o 的自回归范式,基于序列化的方式处理图像和文本数据,确保生成和理解任务的高效性。
  • MAR 编码器:在图像生成路径中,用 MAR 编码器作为视觉表征基础,基于掩码自回归的方式逐步生成图像的 patch,实现高质量的图像生成。
  • SigLIP2 主干:在图像理解路径中,引入 SigLIP2 主干网络,专注于语义信息的提取,提升模型对图像内容的理解能力。
  • 渐进式多任务训练:模型基于渐进式多任务训练策略,先专注于单一任务(如文本生成图像),待收敛后逐步引入理解与编辑任务,避免多任务早期相互干扰,确保模型在不同任务上都能达到顶尖性能。
  • 数据与奖励模型优化:用约亿级规模的精选预训练语料和数百万级任务精调样本,同时构建 Skywork-ImgReward 和 Skywork-EditReward 奖励模型,用在筛选高质量数据和评估生成与编辑任务的质量。

Skywork UniPic的项目地址

  • GitHub仓库:https://github.com/SkyworkAI/UniPic
  • HuggingFace模型库:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
  • 技术论文:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

Skywork UniPic的应用场景

  • 创意设计与广告制作:广告公司根据文案快速生成创意图像,为新产品设计吸引人的宣传海报,大幅缩短设计周期,提升工作效率。
  • 教育与在线学习:在线教育平台借助该模型根据教学内容生成直观图像或动画,帮助学生更好地理解复杂知识点,例如将历史事件转化为生动场景图,增强学习趣味性。
  • 游戏开发:游戏开发者输入剧情描述,让Skywork UniPic生成游戏场景和角色设计图,加速开发流程,为美术设计提供创意参考,提升游戏视觉效果。
  • 文化遗产保护:博物馆修复文物图像或根据历史文献复原古代场景,如重现古代丝绸之路的繁华景象,帮助观众更直观地了解历史,增强文化传承效果。
  • 智能家居与物联网:智能家居系统根据用户语音指令生成相应场景图像,如温馨客厅场景,为用户提供直观的场景预览和定制服务,提升用户体验。

相关文章