【论文阅读】Search-R1:Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
背景大语言模型虽然已经具备很强的推理能力,但一旦问题依赖外部知识、最新信息或多跳检索,单靠参数记忆往往不够。常见做法有两类: RAG,先检索再生成,但RAG 的检索往往是一次性的,不能处理多跳检索; 把搜索引擎当作工具,让模型边想边查。目前这类方法主要依赖prompt注入或者通过sft来增强。其问题在于模型通常并没有在训练中真正学会“如何搜索”。 于是作者提出 Search-R1:把搜索引