阅读笔记:Agentic RL 时代的 Infra 重构(Forge、ROLL、Seer、Slime)
最近阅读了知乎上的笔记《Agentic RL 时代的 Infra 重构:以 Forge、ROLL、Seer、Slime 为例》(原文链接),深受启发,所以在此简单记录一下。 概览Agentic RL 系统总的来看是在最大化如下的训练收益: 其中 Throughput(吞吐)受到系统中 Rollout、Training、Data Processing 和 I/O 的影响。 Sam