滑滑蛋
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

【论文阅读】ByteScale:Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000

链接:https://arxiv.org/abs/2502.21231 团队:ByteDance 背景 为了提升大语言模型的长上下文能力,长文本的训练是有必要的,经过通过Flash Attention技术可以将Attention相关计算的显存占用降低为O(S),但是计算量依旧为O(S^2),这会极大的消耗显存和算力。 为了降低显存开销,传统的方法是使用静态的数据并行叠加上下文并行,即固定
2025-12-28
LLM > 基础知识
#论文阅读 #LLM #MoE

【Megatron-LM源码分析(四)】-DDP数据并行

数据并行存在多种,最简单的就是DDP,每个DP都拥有完整的模型,然后在每个batch结束后在DP间同步梯度,最后统一进行优化器更新。再复杂一些的数据宾县会上ZERO技术,将模型、梯度、优化器状态等进行切分。 这里主要关注最简单的DDP,主要关注DP并行组如何划分,如果做个各个DP读取不同的数据,以及训练过程中如何做到梯度同步。 DP并行组查看megatron/core/parallel_state
2025-12-28
LLM > Megatron-LM
#LLM #Megatron-LM

【Megatron-LM源码分析(三)】-性能分析

在算力利用率方面,Megatron-LM支持通过Pytorch Profiler和Nsys进行分析,注意这两者在Megatron-LM中是互斥的。 PyTorch Profiler:框架原生工具,更高层,侧重于 Python/PyTorch 算子层级,可以看到代码级的调用链,适合识别 Python 端的慢算子、内存泄漏、调度开销。 Nsys:系统级追踪工具,更底层,侧重于 CUDA
2025-12-26
LLM > Megatron-LM
#LLM #Megatron-LM

【论文阅读】ScheMoE:An Extensible Mixture-of-Experts Distributed Training System with Tasks Scheduling

链接:https://dl.acm.org/doi/10.1145/3627703.3650083 发表会议:EuroSys ‘24(CCF-A) 团队:哈工大、香港科技、华为 背景 Moe架构的大模型愈发流行,而Moe流程中存在将数据通过通信转发给对应GPU上专家的行为,如下图是数据并行与专家并行的示例,这种通信行为会导致系统训练效率降低。 现有的优化Moe训练效率的
2025-12-22
LLM > 基础知识
#论文阅读 #LLM #MoE

【Megatron-LM源码分析(二)】-GPT模型pretrain流程

本次查看Megatron-LM的版本是core_r0.14.0,查看的GPT训练文件是pretrain_gpt.py 入口函数main入口函数代码如下: 123456789101112131415161718if __name__ == "__main__": # Temporary for transition to core datasets train_val
2025-12-22
LLM > Megatron-LM
#LLM #Megatron-LM

【Megatron-LM源码分析(一)】-环境配置与训练示例跑通

环境配置 下载代码: 1git clone https://github.com/NVIDIA/Megatron-LM.git 切换到稳定分支: 1git checkout -b core_r0.14.0 origin/core_r0.14.0 拉取指定docker镜像: 1docker pull nvcr.io/nvidia/pytorch:25.04-py3 最小示例示例运行流
2025-12-14
LLM > Megatron-LM
#LLM #Megatron-LM

【论文阅读】The Llama 3 Herd of Models(Section 3 Pre-Training)

链接: https://arxiv.org/abs/2407.21783 团队: META 背景 Llama 3发表于2024年7月,其是一个包含8B、70B和405B参数的多语言语言模型群,实验结果显示,Llama 3的旗舰模型在各种任务上的表现与当时领先的语言模型如GPT-4相当,接近最先进水平。并且其还开发了多模态扩展模型,支持图像识别、视频识别和语音理解功能。 Llama 3语言
2025-12-13
LLM > 基础知识
#论文阅读 #大模型 #Llama3

【论文阅读】Reducing Activation Recomputation in Large Transformer Models

链接:: https://arxiv.org/pdf/2205.05198.pdf 发表会议:MLSYS’22(CCF-B) 团队:NVIDIA 背景在论文发表的2022年看来,一些研究在Transformer大模型训练中会采用激活重计算而不是存储的方式来减少激活值所占存储,但是其问题在于会引入很多冗余计算的开销,导致训练效率降低。故本文提出了序列并行和选择性激活重计算方法,
2025-12-08
LLM > 基础知识
#论文阅读 #LLM

【论文阅读】Megatron-LM论文阅读

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelismhttps://arxiv.org/abs/1909.08053 背景在2019年就出现了大语言模型规模越来越大,单个GPU的显存难以放下的情况,过去已有方法提出了一些关于模型并行的方法,但是其往往需要重写模型,依赖于自定义编译
2025-12-07
LLM > Megatron-LM
#论文阅读 #LLM #Megatron-LM

【k8s APIServer 源码阅读(一)】-对象缓存

Cacher结构cacher的结构如下,已将注释翻译成了中文,关键的内容有 incoming chan watchCacheEvent:事件分发的管道 这里事件的结构如下: 123456789101112131415161718192021222324252627// watchCacheEvent is a single "watch event" that is s
2025-08-24
k8s > ApiServer
#k8s
123…7

搜索

Hexo Fluid
总访问量 次 总访客数 次