MaskSearch是什么
MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架,提升大型语言模型(LLM)的智能体搜索能力。通过检索增强掩码预测(RAMP)任务,让模型在输入文本中对关键信息掩码,借助外部知识库调用搜索工具预测被掩盖的片段,涵盖命名实体、日期、数字、本体知识等关键信息,增加任务难度,促使模型精细化处理信息。在生成监督微调(SFT)数据时,采用多智能体系统,包括规划者、重写者、观察者等角色,协同生成思维链数据,提升数据质量。训练方法结合了SFT和强化学习(RL),使用动态采样策略优化(DAPO)算法构建混合奖励系统,采用课程学习,按掩码数量分级样本难度,让模型逐步学习。

MaskSearch的主要功能
- 提升问答性能:显著增强LLM在开放域多跳问答场景中的性能,特别是在领域内和领域外下游任务上,提升模型对复杂问题的理解和回答能力。
- 适应多种任务:通过RAMP任务和多智能体生成的思维链数据,模型能够更好地适应多种问答任务,提升在不同场景下的表现。
- 多种训练方法兼容:兼容SFT和RL两种训练方法,可以根据不同的任务需求选择合适的训练策略。
- 数据集扩展:通过构建大规模预训练数据集(如1000万样本),提升模型的训练效果和可扩展性。
MaskSearch的技术原理
- 检索增强掩码预测(RAMP)任务:MaskSearch的核心是RAMP任务,受BERT掩码机制启发,让模型在输入文本序列中对关键信息进行掩码处理,然后主动借助外部知识库,调用搜索工具来预测这些被掩盖的文本片段。除了常见的命名实体、日期和数字外,还考虑了本体知识、特定术语和数值等关键信息,增加了任务难度,促使模型在检索和推理过程中更加精细化地处理信息。
- 多智能体协同生成思维链(CoT)数据:为了生成用于监督微调(SFT)的思维链数据,MaskSearch采用多智能体系统,包括规划者、重写者、观察者等角色,协同进行思维链的生成任务,最终由一个LLM负责答案判断,仅保留正确答案的思维链。为快速扩展数据集并保持高质量,使用已有数据训练后的教师模型,直接生成推理轨迹,逐步迭代教师模型,逐步提升数据质量。
- 强化学习(RL):在强化学习部分,MaskSearch采用了动态采样策略优化(DAPO)算法,构建混合奖励系统,包括格式奖励和回答奖励。格式奖励检查模型输出是否符合指定格式,回答奖励则评估生成答案与标准答案的一致性。最终选择基于模型的奖励函数,使用Qwen2.5-72B-Instruct模型作为评判,为生成答案和标准答案的一致性进行打分。
- 课程学习:MaskSearch引入了课程学习策略,依据掩码数量对训练样本进行难度分级,让模型从易到难依次学习,逐步提升能力。
MaskSearch的项目地址
- Github仓库:https://github.com/Alibaba-NLP/MaskSearch
- arXiv技术论文:https://arxiv.org/pdf/2505.20285
MaskSearch的应用场景
- 智能客服:在智能客服领域,MaskSearch能帮助客服系统更准确地理解用户问题,快速检索到相关的答案和信息,提高客服效率和用户满意度。
- 教育领域:在教育领域,MaskSearch可以用于构建智能辅导系统,帮助学生更好地理解和解决复杂的学术问题。能根据学生的问题,检索相关的知识点和解答,提供个性化的学习支持。
- 企业级搜索系统:企业级搜索系统需要处理大量的内部数据和复杂的查询需求。MaskSearch可以增强企业搜索系统的检索能力,能更准确地理解用户查询意图,从海量数据中快速检索到相关信息,提高企业决策效率。
- 机器学习模型的调试与优化:MaskSearch还可以用于机器学习模型的调试与优化。例如,在调试图像分类模型时,MaskSearch可以帮助用户通过掩码属性查询图像数据库,识别模型学习到的虚假相关性,探索模型显著性与人类注意力之间的差异。