【Verl源码分析(二)】Verl中的数据流动 注意查看的是0.4.1.x版本的Verl代码:https://github.com/verl-project/verl/tree/v0.4.1.x 下面给出verl/trainer/ppo/ray_trainer.py中RayPPOTrainer.fit简化后的核心流程代码,也就是Verl中训练的核心流程,下面以此为核心从数据流动的视角进行介绍: 12345678910111213141516 2026-02-03 LLM > Verl #LLM #RL #Verl
【Verl源码分析(一)】Verl资源管理模式 注意查看的是0.4.1.x版本的Verl代码:https://github.com/verl-project/verl/tree/v0.4.1.x 任务与资源管理模式概览 整体的概览图如上所示: 物理层:存在多个实际的服务器,假设每个服务器是同构的,即GPU数量相同。 Ray资源层:一个服务器对应一个Placement_Group,一个GPU对应一个Bundle(Ray中程序运行的原子资 2026-02-03 LLM > Verl #LLM #RL #Verl
Verl安装&Demo跑通&Vscode Debug(低版本Cuda&容器安装) 由于手上只有4090,所以驱动比较老,如下所示,所以使用的是verl 0.4.1.x的版本(https://github.com/verl-project/verl/tree/v0.4.1.x) 12345678910111213$ nvidia-smiThu Jan 29 15:55:02 2026 +----------------------------------------- 2026-01-29 LLM > Verl #LLM #RL #Verl
CS336-Assignment5-Alignment and Reasoning RL 作业总结 前言 原课程链接:https://stanford-cs336.github.io/spring2025/ 原作业链接:https://github.com/stanford-cs336/assignment5-alignment 自己写的版本在(注意只写了sft和grpo,没有写Expert Iteration for MATH):https://github.com/slipegg/ass 2026-01-26 LLM > CS336 #LLM #RL #CS336
基础强化学习学习笔记 基础概念 环境:系统提供的基础环境 状态:环境会被Agent的动作改变,从而变为不同的状态 奖励:环境需要根据当前状态与Agent的动作产生一个奖励来衡量当前动作的好坏 Agent:依据当前环境进行决策,执行相关动作的对象 动作:Agent实际执行的动作,改变环境到下一个状态 决策:依据当前环境可能会产生多个动作,每个动作有不同的概率 动作状态转移概率: 2026-01-16 LLM > RL #LLM #RL
【Nano-vLLM源码分析(二)】关键类实现 Block相关 Block Manger是实现vLLM中提出的PagedAttention的关键,PagedAttention通过对KV Cache实现类似虚拟页表的逻辑Block分区与物理Block分区的划分来实现更灵活的显存管理。 BlockManager 相关代码主要负责 KV cache 的 block 分配/回收,以及 prefix cache(前缀块复用):把“完整的 bl 2026-01-12 LLM > vLLM #LLM #vLLM
【Nano-vLLM源码分析(一)】环境配置及整体流程概览 环境配置 整体环境还是很干净的,跟着readme应该能很快配置起来。 不过我这里是下载了源代码,然后使用了容器nvcr.io/nvidia/pytorch:25.04-py3来挂载文件夹运行,在容器内还需要pip3 install transformers xxhash,这样就配置好了基本的python环境。 然后还需要下载Qwen3模型,因为Nano-vLLM目前只专门适配了它。这里read 2026-01-10 LLM > vLLM #LLM #vLLM
【论文阅读】Efficient Memory Management for Large Language Model Serving with PagedAttention(vLLM论文) 论文链接:https://dl.acm.org/doi/abs/10.1145/3600006.3613165 开源链接:https://github.com/vllm-project/vllm 发表会议:SOSP’23(CCF-A) 团队:UC Berkeley 背景 大模型服务化带来了高昂的运行成本,需要进行推理优化提高吞吐、降低成本 LLM推理过程是一个自回归模型,关键的注意力 2026-01-09 LLM > vLLM #论文阅读 #LLM #vLLM
【Megatron-LM源码分析(五)】-Tensor并行 理论基础 基础的理论分析可以见之前写的内容:https://slipegg.github.io/2025/06/07/Picotron-Tutorial%20Tensor%20Parallel/,https://slipegg.github.io/2025/12/07/Megatron-LM-paper-note/ 简单来说就是存在行并行与列并行两种Tensor并行方式。 上述的前向传播好理解 2026-01-08 LLM > Megatron-LM #LLM #Megatron-LM
【论文阅读】ByteScale:Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 链接:https://arxiv.org/abs/2502.21231 团队:ByteDance 背景 为了提升大语言模型的长上下文能力,长文本的训练是有必要的,经过通过Flash Attention技术可以将Attention相关计算的显存占用降低为O(S),但是计算量依旧为O(S^2),这会极大的消耗显存和算力。 为了降低显存开销,传统的方法是使用静态的数据并行叠加上下文并行,即固定 2025-12-28 LLM > 基础知识 #论文阅读 #LLM #MoE