共计 20 篇文章
2025
【论文阅读】Reducing Activation Recomputation in Large Transformer Models
【论文阅读】Megatron-LM论文阅读
【pytorch-fsdp 源代码阅读(二)】-参数流转
【pytorch-fsdp 源代码阅读(一)】-全流程概览
【Picotron-Tutorial】上下文并行
【Picotron-Tutorial】流水线并行
【Picotron-Tutorial】数据并行
【Picotron-Tutorial】Tensor并行
深度学习中反向传播及优化器使用详解
Pytorch torch.distributed 及NCCL初探