滑滑蛋
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

【Verl源码分析(二)】Verl中的数据流动

注意查看的是0.4.1.x版本的Verl代码:https://github.com/verl-project/verl/tree/v0.4.1.x 下面给出verl/trainer/ppo/ray_trainer.py中RayPPOTrainer.fit简化后的核心流程代码,也就是Verl中训练的核心流程,下面以此为核心从数据流动的视角进行介绍: 12345678910111213141516
2026-02-03
LLM > Verl
#LLM #RL #Verl

【Verl源码分析(一)】Verl资源管理模式

注意查看的是0.4.1.x版本的Verl代码:https://github.com/verl-project/verl/tree/v0.4.1.x 任务与资源管理模式概览 整体的概览图如上所示: 物理层:存在多个实际的服务器,假设每个服务器是同构的,即GPU数量相同。 Ray资源层:一个服务器对应一个Placement_Group,一个GPU对应一个Bundle(Ray中程序运行的原子资
2026-02-03
LLM > Verl
#LLM #RL #Verl

Verl安装&Demo跑通&Vscode Debug(低版本Cuda&容器安装)

由于手上只有4090,所以驱动比较老,如下所示,所以使用的是verl 0.4.1.x的版本(https://github.com/verl-project/verl/tree/v0.4.1.x) 12345678910111213$ nvidia-smiThu Jan 29 15:55:02 2026 +-----------------------------------------
2026-01-29
LLM > Verl
#LLM #RL #Verl

CS336-Assignment5-Alignment and Reasoning RL 作业总结

前言 原课程链接:https://stanford-cs336.github.io/spring2025/ 原作业链接:https://github.com/stanford-cs336/assignment5-alignment 自己写的版本在(注意只写了sft和grpo,没有写Expert Iteration for MATH):https://github.com/slipegg/ass
2026-01-26
LLM > CS336
#LLM #RL #CS336

基础强化学习学习笔记

基础概念 环境:系统提供的基础环境 状态:环境会被Agent的动作改变,从而变为不同的状态 奖励:环境需要根据当前状态与Agent的动作产生一个奖励来衡量当前动作的好坏 Agent:依据当前环境进行决策,执行相关动作的对象 动作:Agent实际执行的动作,改变环境到下一个状态 决策:依据当前环境可能会产生多个动作,每个动作有不同的概率 动作状态转移概率:
2026-01-16
LLM > RL
#LLM #RL

【Nano-vLLM源码分析(二)】关键类实现

Block相关 Block Manger是实现vLLM中提出的PagedAttention的关键,PagedAttention通过对KV Cache实现类似虚拟页表的逻辑Block分区与物理Block分区的划分来实现更灵活的显存管理。 BlockManager 相关代码主要负责 KV cache 的 block 分配/回收,以及 prefix cache(前缀块复用):把“完整的 bl
2026-01-12
LLM > vLLM
#LLM #vLLM

【Nano-vLLM源码分析(一)】环境配置及整体流程概览

环境配置 整体环境还是很干净的,跟着readme应该能很快配置起来。 不过我这里是下载了源代码,然后使用了容器nvcr.io/nvidia/pytorch:25.04-py3来挂载文件夹运行,在容器内还需要pip3 install transformers xxhash,这样就配置好了基本的python环境。 然后还需要下载Qwen3模型,因为Nano-vLLM目前只专门适配了它。这里read
2026-01-10
LLM > vLLM
#LLM #vLLM

【论文阅读】Efficient Memory Management for Large Language Model Serving with PagedAttention(vLLM论文)

论文链接:https://dl.acm.org/doi/abs/10.1145/3600006.3613165 开源链接:https://github.com/vllm-project/vllm 发表会议:SOSP’23(CCF-A) 团队:UC Berkeley 背景 大模型服务化带来了高昂的运行成本,需要进行推理优化提高吞吐、降低成本 LLM推理过程是一个自回归模型,关键的注意力
2026-01-09
LLM > vLLM
#论文阅读 #LLM #vLLM

【Megatron-LM源码分析(五)】-Tensor并行

理论基础 基础的理论分析可以见之前写的内容:https://slipegg.github.io/2025/06/07/Picotron-Tutorial%20Tensor%20Parallel/,https://slipegg.github.io/2025/12/07/Megatron-LM-paper-note/ 简单来说就是存在行并行与列并行两种Tensor并行方式。 上述的前向传播好理解
2026-01-08
LLM > Megatron-LM
#LLM #Megatron-LM

【论文阅读】ByteScale:Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000

链接:https://arxiv.org/abs/2502.21231 团队:ByteDance 背景 为了提升大语言模型的长上下文能力,长文本的训练是有必要的,经过通过Flash Attention技术可以将Attention相关计算的显存占用降低为O(S),但是计算量依旧为O(S^2),这会极大的消耗显存和算力。 为了降低显存开销,传统的方法是使用静态的数据并行叠加上下文并行,即固定
2025-12-28
LLM > 基础知识
#论文阅读 #LLM #MoE
123…8

搜索

Hexo Fluid
总访问量 次 总访客数 次