MiniMax-M1–MiniMax最新开源的推理模型

MiniMax-M1是什么

MiniMax-M1是MiniMax团队最新推出的开源推理模型,基于混合专家架构(MoE)与闪电注意力机制(lightning attention)相结合,总参数量达 4560 亿,每个token激活 459 亿参数。模型超过国内的闭源模型,接近海外的最领先模型,具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度,提供40 和80K两种推理预算版本,适合处理长输入和复杂推理任务。在基准测试中,MiniMax-M1在多个性能指标上超越DeepSeek等开源模型,在复杂软件工程、长上下文理解和工具使用等任务中表现出色。模型高效的计算能力和强大的推理能力使其成为下一代语言模型代理的强大基础。

MiniMax-M1

MiniMax-M1的主要功能

  • 长上下文处理:支持100万token的输入和8万toke 的输出,适合处理长文档和复杂推理任务。
  • 高效推理:提供40K和80K两种推理预算版本,优化计算资源,降低推理成本。
  • 多领域任务优化:在数学推理、软件工程、长上下文理解和工具使用等任务中表现出色,适应多样化应用场景。
  • 功能调用:支持结构化功能调用,能识别、输出外部函数调用参数,便于与外部工具交互。

MiniMax-M1的技术原理

  • 混合专家架构(MoE):基于混合专家架构,将模型分为多个专家模块(Experts),每个模块负责处理特定的子任务或数据子集。输入数据根据其特征动态分配到不同的专家模块,实现高效的计算资源利用和并行处理能力。基于MoE架构,模型能在大规模参数下保持高效的计算性能,同时支持更复杂的任务处理。
  • 闪电注意力机制(Lightning Attention):闪电注意力机制基于优化计算流程,减少冗余计算,显著提高注意力模块的效率。用稀疏注意力模式,仅关注输入序列中的关键部分,进一步降低计算复杂度。支持高效处理长序列数据,支持模型处理长达 100万 token 的上下文。
  • 大规模强化学习(RL)训练:用户大规模强化学习进行训练,基于奖励信号优化模型的输出,使其在复杂任务中表现更好。提出新的 RL 算法 CISPO,基于裁剪重要性采样权重而不是 token 更新,提高训练效率和模型性能。混合注意力设计自然增强RL的效率,解决混合架构在扩展RL时的独特挑战。

MiniMax-M1的性能表现

  • 软件工程任务:在 SWE-bench 验证基准上,MiniMax-M1-40k 和 MiniMax-M1-80k 分别取得 55.6% 和 56.0% 的成绩,略逊于 DeepSeek-R1-0528 的 57.6%,但显著超越其他开源权重模型。
  • 长上下文理解任务:依托百万级上下文窗口,M1 系列在长上下文理解任务中表现卓越,全面超越所有开源权重模型,甚至超越 OpenAI o3 和 Claude 4 Opus,全球排名第二,仅以微弱差距落后于 Gemini 2.5 Pro。
  • 工具使用场景:在代理工具使用场景(TAU-bench)中,MiniMax-M1-40k 领跑所有开源权重模型,战胜 Gemini-2.5 Pro。
MiniMax-M1

MiniMax-M1的项目地址

  • GitHub仓库:https://github.com/MiniMax-AI/MiniMax-M1
  • HuggingFace模型库:https://huggingface.co/collections/MiniMaxAI/minimax-m1
  • 技术论文:https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report

MiniMax-M1的产品定价

  • API调用推理成本定价
    • 0-32k 输入长度
      • 输入成本:0.8元/百万 token。
      • 输出成本:8元/百万 token。
    • 32k-128k 输入长度
      • 输入成本:1.2元/百万 token。
      • 输出成本:16元/百万 token。
    • 128k-1M 输入长度
      • 输入成本:2.4元/百万 token。
      • 输出成本:24元/百万 token。
  • APP和Web端:在 MiniMax APP 和 Web 上保持不限量免费使用。

MiniMax-M1的应用场景

  • 复杂软件工程:支持代码生成、优化、调试和文档生成,帮助开发者快速实现功能模块,提升开发效率。
  • 长文本处理:能够生成长篇报告、学术论文、小说等,同时支持长文本分析和多文档总结,满足多样化需求。
  • 数学与逻辑推理:解决复杂数学问题,如竞赛数学题目和数学建模,处理逻辑推理任务,提供清晰的解题思路。
  • 工具使用与交互:作为智能助手调用外部工具,完成多步骤任务,提供自动化解决方案,提升工作效率。

相关文章