AutoThink–快手开源的自动思考大模型

Auto Think是什么

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型,模型针对深度思考大模型存在的“过度思考”问题进行了深入研究,提出了一种全新的自动思考模型训练范式,基于传统强化学习算法(GRPO),提出带有过程监督的强化学习方法Step-SRPO,进一步提升模型在复杂任务中的表现。模型融合“思考”和“非思考”能力,具备根据问题难度自动切换思考形态的能力。通过这种思考形态训练,模型在多个“思考”和“非思考”评测榜单上均实现了性能提升,其中在部分代码和数学类的任务上,开启自动思考模式下的模型得分提升高达20分左右。

Auto Think

Auto Think的主要功能

  • 自动切换思考形态:模型融合了“思考”和“非思考”能力,根据问题的难度自动切换思考形态。对于简单问题,模型会采用“快思考”模式,直接给出答案,避免不必要的复杂推理过程;对于复杂问题,会切换到“慢思考”模式,进行深度推理和分析,更准确地解决问题。
  • 提升效率与性能:自动切换思考形态的能力,使模型在多个“思考”和“非思考”评测榜单上均实现了性能提升。在部分代码和数学类的任务上,开启自动思考模式下的模型得分提升高达20分左右。

Auto Think的技术原理

  • 最小提示干预:通过一个添加省略号的Ellipsis Prompt,激活模型随机切换思考模式的能力。这种提示词结构简单而有效,能引导模型在不同思考模式之间进行切换,为后续的强化学习训练提供了基础。
  • 多阶段强化学习
    • 第一阶段:让模型稳定地出现快慢两种思考模式。其中“快思考”用于解决简单问题,复杂问题则使用“慢思考”。这一阶段的目标是使模型能根据问题的难度初步判断并选择相应的思考模式。
    • 第二阶段:对快慢思考行为进行优化,提高两种模式下正确回答的能力。通过这一阶段的训练,模型在不同思考模式下都能更准确地处理问题,提升其整体性能。
    • 第三阶段:对快慢思考的思维链输出进行精炼。经过这个阶段的训练后,模型不再随机地决定是否深入思考,能根据问题难度自主选择思考模式,实现更高效、更精准的推理过程。

Auto Think的项目地址

  • HuggingFace模型库:https://huggingface.co/Kwaipilot/KwaiCoder-AutoThink-preview

Auto Think的应用场景

  • 视频生成:Auto Think的自动思考能力可以进一步优化视频生成过程,使视频内容的生成更加贴合不同难度和复杂度的需求。
  • 文案创作:Auto Think可以根据问题难度自动切换思考形态,为文案创作提供更高效、更精准的思路和方法。
  • 智能客服:Auto Think的自动思考能力可以使其在与用户交互时,根据问题的复杂程度,快速准确地给出回应,提升用户体验。
  • 精准搜索:Auto Think的自动思考能力可以进一步优化搜索结果,提供更精准、更符合用户需求的信息。
  • 个性化推荐:Auto Think可以根据用户的个性化需求,自动切换思考模式,提供更精准的推荐结果。

相关文章