标签 - LLM - 滑滑蛋的个人博客

04-13

阅读笔记：Agentic RL 时代的 Infra 重构（Forge、ROLL、Seer、Slime）

04-12

【论文阅读】SWE-bench Goes Live!

03-11

【论文阅读】Search-R1:Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

03-10

K8s中的Sandbox编排浅析（Agent-sandbox&Agentcube解析）

03-02

【论文阅读】GLM-5:from Vibe Coding to Agentic Engineering

02-23

【Verl源码分析（四）】Verl中使用sandbox进行训练

02-20

【Verl源码分析（三）】Verl中训练引擎与推理引擎共置处理（以FSDP、vLLM为例）

02-03

【Verl源码分析（二）】Verl中的数据流动

01-30

【Verl源码分析（一）】Verl资源管理模式

01-29

Verl安装&Demo跑通&Vscode Debug（低版本Cuda&容器安装）