【Verl源码分析(三)】Verl中训练引擎与推理引擎共置处理(以FSDP、vLLM为例)
Verl在进行强化学习训练时,既需要使用推理引擎执行推理采样,也需要训练引擎进行模型更新,所以需要使用两类引擎,故这里以FSDP训练引擎和vLLM推理引擎为例对Verl的相关处理进行介绍。 注意查看的是0.4.1.x版本的Verl代码:https://github.com/verl-project/verl/tree/v0.4.1.x 初始化如前所述(https://slipegg.githu