滑滑蛋的个人博客

【论文阅读】Search-R1:Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

背景大语言模型虽然已经具备很强的推理能力，但一旦问题依赖外部知识、最新信息或多跳检索，单靠参数记忆往往不够。常见做法有两类： RAG，先检索再生成，但RAG 的检索往往是一次性的，不能处理多跳检索；把搜索引擎当作工具，让模型边想边查。目前这类方法主要依赖prompt注入或者通过sft来增强。其问题在于模型通常并没有在训练中真正学会“如何搜索”。于是作者提出 Search-R1：把搜索引

2026-03-11

LLM > 基础知识

#论文阅读 #LLM #Agent #RLHF

K8s中的Sandbox编排浅析（Agent-sandbox&Agentcube解析）

最近对RL中的sandbox比较感兴趣，而sandbox的编排一般都使用的是k8s，正好也拿来当做复健了。主要看了两个仓库： Agent-sandbox：kubernetes-sigs系列推出的agent-sandbox管理组件，能够轻松管理隔离的、有状态的、单例工作负载，非常适合 AI 代理运行时等用例。 Agentcube：volcano系列推出的基于Agent-sandbox面向code

2026-03-10

k8s > sandbox

#k8s #LLM #RL #sandbox

【论文阅读】GLM-5:from Vibe Coding to Agentic Engineering

GLM-5 是智谱与清华推出的新一代基础模型，之前其匿名以Pony Alpha的名字引起了不小的震动，其论文发表在arxiv上：https://arxiv.org/abs/2602.15763。该模型主打从“vibe coding”走向“agentic engineering”，而这也正切合目前Agent大行其道的趋势。故而查看此论文想了解最新模型的Agent能力是如何训练出来的。其整体训练流程

2026-03-02

LLM > 基础知识

#论文阅读 #LLM #GLM-5 #Agent

【Verl源码分析（四）】Verl中使用sandbox进行训练

在强化学习中，当reward依赖“运行结果”而不是“文本相似度或打分模型”时，就需要sandbox来运行模型rollout的结果进行判别。最典型的场景就是在强化学习场景中加入生成代码的任务，或者是更复杂的有关工具调用的训练场景。 Verl目前已支持将fusin sandbox加入到训练流程中，故本文随着Verl的官方示例来对其一探究竟，其主要是在Eurus-2-RL-Data 数据集上利用Fus

2026-02-23

LLM > Verl

#LLM #RL #Verl

【Verl源码分析（三）】Verl中训练引擎与推理引擎共置处理（以FSDP、vLLM为例）

Verl在进行强化学习训练时，既需要使用推理引擎执行推理采样，也需要训练引擎进行模型更新，所以需要使用两类引擎，故这里以FSDP训练引擎和vLLM推理引擎为例对Verl的相关处理进行介绍。注意查看的是0.4.1.x版本的Verl代码：https://github.com/verl-project/verl/tree/v0.4.1.x 初始化如前所述（https://slipegg.githu

2026-02-20

LLM > Verl

#LLM #RL #Verl

【Verl源码分析（二）】Verl中的数据流动

注意查看的是0.4.1.x版本的Verl代码：https://github.com/verl-project/verl/tree/v0.4.1.x 下面给出verl/trainer/ppo/ray_trainer.py中RayPPOTrainer.fit简化后的核心流程代码，也就是Verl中训练的核心流程，下面以此为核心从数据流动的视角进行介绍： 12345678910111213141516

2026-02-03

LLM > Verl

#LLM #RL #Verl

【Verl源码分析（一）】Verl资源管理模式

注意查看的是0.4.1.x版本的Verl代码：https://github.com/verl-project/verl/tree/v0.4.1.x 任务与资源管理模式概览整体的概览图如上所示：物理层：存在多个实际的服务器，假设每个服务器是同构的，即GPU数量相同。 Ray资源层：一个服务器对应一个Placement_Group，一个GPU对应一个Bundle（Ray中程序运行的原子资

2026-01-30

LLM > Verl

#LLM #RL #Verl

Verl安装&Demo跑通&Vscode Debug（低版本Cuda&容器安装）

由于手上只有4090，所以驱动比较老，如下所示，所以使用的是verl 0.4.1.x的版本(https://github.com/verl-project/verl/tree/v0.4.1.x) 12345678910111213$ nvidia-smiThu Jan 29 15:55:02 2026 +-----------------------------------------

2026-01-29

LLM > Verl

#LLM #RL #Verl

CS336-Assignment5-Alignment and Reasoning RL 作业总结

前言原课程链接：https://stanford-cs336.github.io/spring2025/ 原作业链接：https://github.com/stanford-cs336/assignment5-alignment 自己写的版本在(注意只写了sft和grpo，没有写Expert Iteration for MATH）：https://github.com/slipegg/ass

2026-01-26

LLM > CS336

#LLM #RL #CS336

基础强化学习学习笔记

基础概念环境：系统提供的基础环境状态：环境会被Agent的动作改变，从而变为不同的状态奖励：环境需要根据当前状态与Agent的动作产生一个奖励来衡量当前动作的好坏 Agent：依据当前环境进行决策，执行相关动作的对象动作：Agent实际执行的动作，改变环境到下一个状态决策：依据当前环境可能会产生多个动作，每个动作有不同的概率动作状态转移概率：

2026-01-16

LLM > RL

#LLM #RL