REFRAG–Meta推出的高效解码框架

AI项目和框架 01月01日

335 2

REFRAG是什么

REFRAG是Meta超级智能实验室推出的针对检索增强生成（RAG）任务的高效解码框架，通过“压缩（Compress）、感知（Sense）、扩展（Expand）”的流程优化大型语言模型（LLM）处理外部知识的方式。REFRAG将检索到的长文本切分为多个“块”，为每个“块”生成紧凑的向量表示，缩短输入序列长度，降低计算量。模型用强化学习策略网络智能判断关键信息，保留重要文本块的原始文本。框架在显著提高首字生成延迟（最高加速30倍）的同时，保持与完整上下文模型相当的性能，有效解决大模型处理长上下文时的效率问题。

REFRAG的主要功能

显著降低首字生成延迟（TTFT）：通过优化解码过程，REFRAG将首字生成延迟最高加速30倍，显著提升系统的实时交互性能。
保持或提升生成内容质量：在加速的同时，REFRAG在困惑度和多种下游任务的准确率上与使用完整上下文的基线模型相比没有性能损失，且在某些任务上表现更好。
扩展上下文窗口：REFRAG通过压缩技术，使模型能在同等计算预算下处理更多的上下文信息，上下文窗口等效扩大16倍，有助于提升模型在需要长上下文信息的任务中的表现。
适应多种应用场景：REFRAG适用于RAG任务，能应用在多轮对话、长文档摘要等其他需要处理长上下文信息的任务，具有广泛的适用性。

REFRAG的技术原理

压缩（Compress）：将检索到的长篇参考资料切分为多个“块”（chunks），为每个“块”生成一个紧凑的向量表示“块嵌入”（chunk embedding），缩短输入序列长度，降低后续计算量，避免了重复的编码计算。
感知（Sense）：通过训练基于强化学习（RL）的策略网络，分析所有的“块嵌入”和用户问题，判断哪些文本块包含最核心的信息，需要用原始文本的形式呈现给LLM，确保关键信息不会因压缩丢失。
扩展（Expand）：最终输入到主LLM的是混合序列，包含大部分上下文的“块嵌入”和少量被判断为关键的“原始文本块”。LLM基于经过优化的输入材料生成答案，保留关键信息，最大限度地降低计算负载。
利用注意力机制的稀疏性：REFRAG观察到RAG任务中模型的注意力机制呈现出“块对角”（block-diagonal）的稀疏模式，即模型的注意力主要集中在单个文档内部以及各文档与用户问题之间的关联上。REFRAG通过选择性地压缩和扩展上下文，减少不必要的计算，提高效率。

REFRAG的项目地址

arXiv技术论文：https://arxiv.org/pdf/2509.01092

REFRAG的应用场景

检索增强生成（RAG）任务：通过优化解码过程，显著提高首字生成延迟，适用需要快速生成准确答案的场景，如智能客服、在线问答系统等。
多轮对话系统：在多轮对话中，高效处理长对话历史，保持对话连贯性和准确性，提升用户体验。
长文档摘要：REFRAG能有效处理长文档，生成高质量摘要，适用新闻、学术论文等长文本的自动摘要生成。
知识图谱问答：结合知识图谱快速检索相关知识生成准确答案，适用知识图谱驱动的智能问答系统。
内容创作辅助：在内容创作场景中快速生成创意文本，帮助作者快速构思和撰写文章、故事等，提高创作效率。

# AI项目和框架

TIGER–清华大学推出的轻量级语音分离模型

互联网

327

3D-Speaker–阿里通义推出的多模态说话人识别任务开源项目

互联网

459

Parler-TTS–HuggingFace开源的文本转语音模型

互联网

270

MotionDreamer–香港科技大学推出的运动合理视频生成框架

互联网

286

智谱AI开放平台–智谱AI推出的大模型开发平台

互联网

243

GR00TN1–英伟达开源的人形机器人基础模型

互联网

386

REFRAG–Meta推出的高效解码框架

REFRAG是什么

REFRAG的主要功能

REFRAG的技术原理

REFRAG的项目地址

REFRAG的应用场景

XTunerV1–上海AILab开源的新一代大模型训练引擎

混元图像2.1–腾讯开源的文生图模型

相关文章

热门工具

最新收录

最新文章

AI应用大全

REFRAG–Meta推出的高效解码框架

REFRAG是什么

REFRAG的主要功能

REFRAG的技术原理

REFRAG的项目地址

REFRAG的应用场景

XTunerV1–上海AILab开源的新一代大模型训练引擎

混元图像2.1–腾讯开源的文生图模型

相关文章

热门工具

最新收录

最新文章