归档 - 滑滑蛋的个人博客

03-02

【论文阅读】GLM-5:from Vibe Coding to Agentic Engineering

02-23

【Verl源码分析（四）】Verl中使用sandbox进行训练

02-20

【Verl源码分析（三）】Verl中训练引擎与推理引擎共置处理（以FSDP、vLLM为例）

02-03

【Verl源码分析（二）】Verl中的数据流动

01-30

【Verl源码分析（一）】Verl资源管理模式

01-29

Verl安装&Demo跑通&Vscode Debug（低版本Cuda&容器安装）

01-26

CS336-Assignment5-Alignment and Reasoning RL 作业总结

01-16

基础强化学习学习笔记

01-12

【Nano-vLLM源码分析（二）】关键类实现

01-10

【Nano-vLLM源码分析（一）】环境配置及整体流程概览