MiniCPM4.0–面壁智能推出的端侧大模型

MiniCPM 4.0是什么

MiniCPM 4.0 是面壁智能推出的端侧大模型。模型分为 8B 和 0.5B 两种参数规模。8B 闪电稀疏版采用创新稀疏架构,能高效处理长文本任务;0.5B 版本以低计算资源消耗和高性能著称。自研 CPM.cu 推理框架在极限场景下可实现最高 220 倍提速,常规情况下也能达到 5 倍的速度提升。MiniCPM 4.0 支持在 vLLM、SGLang、LlamaFactory 等开源框架部署,已适配 Intel、高通、MTK、华为昇腾等主流芯片。

MiniCPM 4.0

MiniCPM 4.0开源模型合集

MiniCPM4-8B:MiniCPM4的旗舰模型,拥有80亿参数,在8T tokens上训练。

MiniCPM4-0.5B:MiniCPM4的小型版本,拥有0.5亿参数,在1T tokens上训练。

MiniCPM4-8B-Eagle-FRSpec:用于FRSpec的Eagle头,加速MiniCPM4-8B的推测性推理。

MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu:使用QAT训练的FRSpec的Eagle头,高效地结合推测和量化,实现MiniCPM4-8B的超加速。

MiniCPM4-8B-Eagle-vLLM: vLLM格式的Eagle头,加速MiniCPM4-8B的推测性推理。

MiniCPM4-8B-marlin-Eagle-vLLM: 量化的vLLM格式Eagle头,加速MiniCPM4-8B的推测性推理。

BitCPM4-0.5B:应用极值三进制量化于MiniCPM4-0.5B,将模型参数压缩为三进制值,实现了90%的位宽减少。

BitCPM4-1B:应用极值三进制量化于MiniCPM3-1B,将模型参数压缩为三进制值,实现了90%的位宽减少。

MiniCPM4-Survey: 基于MiniCPM4-8B,接受用户的查询作为输入,并自动生成可信的长篇调查论文。

MiniCPM4-MCP:基于MiniCPM4-8B,接受用户的查询及可用的MCP工具作为输入,并自动调用相关的MCP工具以满足用户需求。

MiniCPM 4.0的主要功能

  • 高效双频换挡机制:MiniCPM 4.0-8B 版本可根据任务特征自动切换注意力模式。处理长文本时启用稀疏注意力,降低计算复杂度;处理短文本时切换至稠密注意力,确保精度。
  • 极致推理速度提升:通过自研 CPM.cu 推理框架,在极限场景下实现最高 220 倍提速,常规场景下也能达到 5 倍的速度提升。
  • 模型瘦身与高效部署:采用创新的稀疏架构和极致低位宽量化技术,实现模型体积缩小 90%,同时保持卓越性能。支持在 vLLM、SGLang、LlamaFactory 等开源框架部署。
  • 端侧推理优化:内置自研 CPM.cu 极速端侧推理框架,从投机采样创新、模型压缩量化创新、端侧部署框架创新几方面,带来 90% 的模型瘦身和速度提升。
  • 多平台适配:已适配 Intel、高通、MTK、华为昇腾等主流芯片,可在多种端侧设备上流畅运行。
  • 多种版本选择:提供 8B 和 0.5B 两种参数规模的版本,满足不同场景需求。

MiniCPM 4.0的技术原理

  • 稀疏注意力机制:MiniCPM 4.0-8B 采用创新的可训练稀疏注意力机制(InfLLM v2),在处理长文本时,每个词元(token)仅需与不到 5% 的其他词元进行相关性计算,极大地降低了长文本处理的计算开销。
  • 高效双频换挡:根据任务特征自动切换注意力模式。处理长文本时启用稀疏注意力以降低计算复杂度,处理短文本时切换至稠密注意力以确保精度。
  • 模型风洞 2.0:引入先进的下游任务 Scaling 预测方法,能更精准地搜索并确定最佳的模型训练配置。
  • BitCPM:实现了极致的三值量化技术,将模型参数的位宽压缩超过 90%,在大幅“瘦身”的同时保持了卓越性能。
  • 高效训练工程:全面采用 FP8 低精度计算技术,结合多词元预测(Multi-token Prediction)训练策略,进一步提升训练效率。
  • 自研推理框架:MiniCPM 4.0 内置自研 CPM.cu 极速端侧推理框架,从投机采样创新、模型压缩量化创新、端侧部署框架创新几方面,带来 90% 的模型瘦身和速度提升。

MiniCPM 4.0的项目地址

  • Github仓库:https://github.com/OpenBMB/MiniCPM
  • HuggingFace模型库:https://huggingface.co/collections/openbmb/minicpm4
  • 技术报告:https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf

MiniCPM 4.0的应用场景

  • 智能辅导系统:MiniCPM 4.0 可以作为智能辅导系统的核心,通过自然语言处理技术,理解学生的问题并提供详细的解答和解释,帮助学生更好地理解和掌握知识。
  • 病例分析与诊断辅助:MiniCPM 4.0 可以辅助医生进行病例分析,通过自然语言处理技术理解病历内容,为医生提供诊断建议和参考信息,提高诊断的准确性和效率。
  • 医学文献检索:帮助医生和研究人员快速检索相关的医学文献和研究成果,提供精准的文献推荐和摘要,节省时间和精力。
  • 智能客服:作为金融客服的核心,快速准确地回答客户的咨询问题,提供个性化的服务和解决方案,提高客户满意度。
  • 游戏剧情生成:MiniCPM 4.0 可以根据游戏设定和玩家行为,自动生成丰富多样的游戏剧情和任务,增加游戏的趣味性和可玩性。

相关文章