分类 - 滑滑蛋的个人博客

基础知识 13

【论文阅读】GLM-5:from Vibe Coding to Agentic Engineering 【论文阅读】ByteScale:Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 【论文阅读】ScheMoE:An Extensible Mixture-of-Experts Distributed Training System with Tasks Scheduling 【论文阅读】The Llama 3 Herd of Models（Section 3 Pre-Training）【论文阅读】Reducing Activation Recomputation in Large Transformer Models 深度学习中反向传播及优化器使用详解 Pytorch torch.distributed 及NCCL初探 GPU架构概览大模型显存占用浅析 Transformer-KV cache浅析 More...

【Megatron-LM源码分析（六）】-流水线并行-1F1B 【Megatron-LM源码分析（五）】-Tensor并行【Megatron-LM源码分析（四）】-DDP数据并行【Megatron-LM源码分析（三）】-性能分析【Megatron-LM源码分析（二）】-GPT模型pretrain流程【Megatron-LM源码分析（一）】-环境配置与训练示例跑通【论文阅读】Megatron-LM论文阅读

【Verl源码分析（四）】Verl中使用sandbox进行训练【Verl源码分析（三）】Verl中训练引擎与推理引擎共置处理（以FSDP、vLLM为例）【Verl源码分析（二）】Verl中的数据流动【Verl源码分析（一）】Verl资源管理模式 Verl安装&Demo跑通&Vscode Debug（低版本Cuda&容器安装）

Build a Large Language Model (From Scratch) 4

【从零构建大模型】四、对模型进行无监督训练【从零构建大模型】三、从零实现一个 GPT 模型以生成文本【从零构建大模型】二、编码Attention机制【从零构建大模型】一、文本数据处理

Picotron-Tutorial 4

【Picotron-Tutorial】上下文并行【Picotron-Tutorial】流水线并行【Picotron-Tutorial】数据并行【Picotron-Tutorial】Tensor并行

【Nano-vLLM源码分析（二）】关键类实现【Nano-vLLM源码分析（一）】环境配置及整体流程概览【论文阅读】Efficient Memory Management for Large Language Model Serving with PagedAttention（vLLM论文）

【pytorch-fsdp 源代码阅读（二）】-参数流转【pytorch-fsdp 源代码阅读（一）】-全流程概览

基础强化学习学习笔记

CS336-Assignment5-Alignment and Reasoning RL 作业总结

【K8s源码分析（六）】-K8s中Pod拓扑分布约束（Pod Topology Spread Constraints）插件介绍【K8s源码分析（五）】-K8s中Pod亲和性调度插件介绍【K8s源码分析（四）】-K8s调度器绑定周期介绍【K8s源码分析（三）】-K8s调度器调度周期介绍【K8s源码分析（二）】-K8s调度队列介绍【K8s源码分析（一）】-K8s调度框架及调度器初始化介绍

Kubernetes Informer介绍如何在K8s集群中管理与使用GPU Kubernetes 架构及部署、调度、状态管理流程简介

【k8s kubelet 源代码阅读（二）】-节点状态上报【k8s kubelet 源代码阅读（一）】-Pod管理

Kubeflow Trainer梳理

【k8s APIServer 源码阅读（一）】-对象缓存

【MIT6.824】lab3 Fault-tolerant Key/Value Service 实现笔记【MIT6.824】lab2C-persistence, lab2D-log compaction 实现笔记【MIT6.824】lab2B-log replication 实现笔记【MIT6.824】lab2A实现笔记【MIT6.824】lab 1 MapReduce实现总结

【论文阅读】In Search of an Understandable Consensus Algorithm 【论文阅读】The Design of a Practical System for Fault-Tolerant Virtual Machines 【论文阅读】The Google file System 【论文阅读】MapReduce: Simplified Data Processing on Large Clusters

分布式系统中的线性一致性 RPC介绍

CNCF项目全景图介绍 Linux控制台输出多种样式彩色字符及原理解析在Unbuntu上安装Go以及解决Vscode上Go插件无法安装的问题在CentOS上使用源码安装Python3.7，不与系统Python2.7冲突，同时支持pip3（脚本安装，亲测有效） IDEA远程开发选项丢失修复方法如何写出优雅的代码 git学习记录博客基础使用指南

设置Clash代理，彻底解决linux系统Docker pull的问题 Docker 面试题汇总(附答案) 万字总结！Docker简介及底层关键技术剖析

【论文阅读】Gödel:Unified Large-Scale Resource Management and Scheduling at ByteDance 【论文阅读】Not All Resources are Visible:Exploiting Fragmented Shadow Resources in Shared-State Scheduler Architecture

【论文阅读】{MegaScale}:Scaling Large Language Model Training to More Than 10,000 {GPUs} 【论文阅读】Fluid:Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs

书生大模型实战营 1

InternLM 书生大模型实战营

2024开源之夏参与经验总结