dots.llm1是什么
dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上进行预训练,用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,训练效率显著提升。基于精心设计的数据处理流程和两阶段监督微调,dots.llm1 在中英文通用场景、数学、代码等任务上表现出色,与 Qwen2.5-72B 等模型相比具有较强的竞争力。hi lab 团队开源了 Pretrain 阶段每 1T token 的 checkpoint 和 Instruct 模型,为大模型社区提供丰富的研究基础,助力推动大模型技术的发展。

dots.llm1的主要功能
- 多语言文本生成:支持生成高质量的中英文文本,适用多种场景,如写作辅助、内容创作等。
- 复杂指令遵循:理解和执行复杂的指令,完成特定任务,如数据整理、代码生成等。
- 知识问答:提供准确的知识问答服务,帮助用户获取所需信息。
- 数学与代码推理:具备数学计算和代码推理能力,解决数学问题和编写简单代码。
- 多轮对话:支持多轮对话,与用户进行自然流畅的交流,理解上下文并给出恰当回应。
dots.llm1的技术原理
- Mixture of Experts (MoE) 架构:dots.llm1 是基于 Decoder-only Transformer 的 MoE 模型,用 6in128 Expert 配置,即每个 token 最多激活 6 个专家,共有 128 个专家。在 1420 亿参数中,每次前向传播只激活 140 亿参数,基于门控机制选择最相关的专家进行计算,提高计算效率。
- 高效的数据处理和训练框架:用 11.2T 高质量 token 数据进行预训练,数据来源包括 Common Crawl 和自有 Spider 抓取的 web 数据,经过多轮清洗和过滤,确保数据质量。基于 Interleaved 1F1B 流水并行的 AlltoAll overlap 和高效 Grouped GEMM 实现,显著提升训练效率。
- 两阶段监督微调:对全量数据进行两轮基础训练,基于采样、动态学习率调整等技术,初步释放模型潜力。针对数学与代码等特定领域,引入拒绝采样微调,结合验证器筛选高置信度重要样本,进一步提升模型的推理性能。
- 学习率调度与超参数优化:基于 WSD 学习率调度方式,在学习率稳定阶段保持 3e-4 训练 10T token 语料,退火阶段分两个阶段训练 1.2T token 语料,逐步降低学习率。在训练过程中,调整 batch size 等超参数,确保训练过程稳定,避免出现 loss spike。
dots.llm1的项目地址
- GitHub仓库:https://github.com/rednote-hilab/dots.llm1
- HuggingFace模型库:https://huggingface.co/rednote-hilab
- arXiv技术论文:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf
dots.llm1的应用场景
- 内容创作:辅助写作文案、故事、新闻等,提供创意灵感与写作建议。
- 教育学习:用在语言学习、编程教育和知识问答,辅助学习者提升能力。
- 商业办公:构建智能客服,生成数据分析和市场调研报告,助力企业运营。
- 编程开发:生成代码片段、代码文档,提供调试建议,提高开发效率。
- 个人助理:管理日程、规划任务、整理信息,提升个人工作与生活效率。