滑滑蛋
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Pytorch torch.distributed 及NCCL初探

Pytorch torch.distributed 举例学习单机通信12345678910111213141516171819202122232425262728293031323334353637import osimport torchimport torch.distributed as distimport torch.multiprocessing as mpdef setup(rank
2025-05-25
LLM > 基础知识
#LLM

GPU架构概览

GPU架构概览物理体系架构下图是A100的物理体系架构: 绿色部分是计算核心 在 NVidia 的 GPU 里,最基本的处理单元是SP(Streaming Processor),A100中,64SP会组成一个SM(streaming Multiprocessor),SM是GPU中调度的基础单元,A100中总共具有108个SM,所以得到共有108*64=6192个计算核心。 中间
2025-05-10
LLM > 基础知识
#LLM

【从零构建大模型】四、对模型进行无监督训练

概览构建大模型的全景图如下,本文介绍了如何训练大模型以及如何重加载已有的预训练过的大模型参数。 介绍的脉络如下: 介绍Evaluating generative text modelsUsing GPT to generate text简单回顾一下GPT模型,其结构的关键参数如下所示: 123456789101112131415161718192021import torchfrom prev
2025-05-04
LLM > Build a Large Language Model (From Scratch)
#LLM

【从零构建大模型】三、从零实现一个 GPT 模型以生成文本

概览构建大模型的全景图如下,本文介绍了基础GPT-2系列的模型架构。 介绍的脉络如下: 介绍Coding an LLM architecture一个参数量为124 million的GPT-2模型包括了以下的定义参数: 123456789GPT_CONFIG_124M = { "vocab_size": 50257, # Vocabulary size
2025-05-03
LLM > Build a Large Language Model (From Scratch)
#LLM

【从零构建大模型】二、编码Attention机制

概览构建大模型的全景图如下,本文介绍了基础的attention处理。 介绍的脉络如下: 介绍The problem with modeling long sequences对于类似翻译的任务,由于不同语言的语法问题,所以难以做到一对一的逐字翻译,需要提前对原本的字符串进行encoder提取信息,然后使用decoder模块进行翻译。 而传统的encoder-decoder RNNs方法在enco
2025-05-02
LLM > Build a Large Language Model (From Scratch)
#LLM

【从零构建大模型】一、文本数据处理

概览构建大模型的全景图如下,本文介绍了最开始的数据处理。 数据处理的全景图如下所示,大致流程为: 将原文本,一般为一个string,进行分割。 对分割后的词转化为id。 生成一个embeddings层,然后id作为序号去embeddings层中取对应的行作为自己的表征。 如此转化后就将原本深度学习模型不能处理的原始数据转化为了可以处理的矩阵,同时我们希望这最后表示原始数据的矩阵中也能
2025-05-01
LLM > Build a Large Language Model (From Scratch)
#LLM

大模型显存占用浅析

基础知识浮点数对于大模型常说的1B、7B中的B指的是Billion,即十亿参数,然后还需考虑模型采用什么位数来存储,常见的表示类型如下: 可以非常直观地看到,浮点数主要是由符号位(sign)、指数位(exponent)和小数位(mantissa)三部分组成。 符号位都是1位(0表示正,1表示负),指数位影响浮点数范围,小数位影响精度。 其中TF32并不是有32bit,只有19bit不要记错了。B
2025-04-30
LLM > 基础知识
#LLM

Transformer-KV cache浅析

推理回顾假设模型最终生成了“遥遥领先”4个字。 当模型生成第一个“遥”字时,input=”<s>”, “<s>”是起始字符。Attention的计算如下: 为了看上去方便,我们暂时忽略scale项根号d, 但是要注意这个scale面试时经常考。 如上图所示,最终Attention的计算公式如下,(softmaxed 表示已经按行进行了softmax): 以此类
2025-04-25
LLM > 基础知识
#LLM

Transformer 中Decoder-only、Encoder-only、Decoder-encoder架构区别

不同架构的特点Encoder-Decoder 模型 特点:包含编码器和解码器两个部分。编码器处理输入序列,生成上下文向量;解码器则根据编码器的输出生成目标序列。这个结构能够同时处理输入和输出序列的关联。 典型模型:T5(Text-to-Text Transfer Transformer) 、BART 应用:序列到序列任务,如机器翻译、摘要生成。
2025-04-23
LLM > 基础知识
#LLM

Transformer详解

概览 Transformer由两个部分组成,包括Decoder和Encoder两个部分 Self-attention对于输入X,我们有对应的WQ、WK、WV矩阵,可以计算得到,Q、K、V Q代表查询向量(Query) K代表键向量(Key),KQ其实就代表了对于各个字符的注意力 V代表值向量(Value),需要与注意力相乘得倒最后的值 然后依据下面的公式可以计算出对应的Attentio
2025-04-22
LLM > 基础知识
#LLM
1234…7

搜索

Hexo Fluid
总访问量 次 总访客数 次