滑滑蛋
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Pytorch torch.distributed 及NCCL初探

Pytorch torch.distributed 举例学习单机通信12345678910111213141516171819202122232425262728293031323334353637import osimport torchimport torch.distributed as distimport torch.multiprocessing as mpdef setup(rank
2025-05-25
LLM
#GPU #大模型 #网络

GPU架构概览

GPU架构概览物理体系架构下图是A100的物理体系架构: 绿色部分是计算核心 在 NVidia 的 GPU 里,最基本的处理单元是SP(Streaming Processor),A100中,64SP会组成一个SM(streaming Multiprocessor),SM是GPU中调度的基础单元,A100中总共具有108个SM,所以得到共有108*64=6192个计算核心。 中间
2025-05-10
LLM
#GPU #AI

【从零构建大模型】四、对模型进行无监督训练

概览构建大模型的全景图如下,本文介绍了如何训练大模型以及如何重加载已有的预训练过的大模型参数。 介绍的脉络如下: 介绍Evaluating generative text modelsUsing GPT to generate text简单回顾一下GPT模型,其结构的关键参数如下所示: 123456789101112131415161718192021import torchfrom prev
2025-05-04
LLM > 从零构建大模型
#大模型

【从零构建大模型】三、从零实现一个 GPT 模型以生成文本

概览构建大模型的全景图如下,本文介绍了基础GPT-2系列的模型架构。 介绍的脉络如下: 介绍Coding an LLM architecture一个参数量为124 million的GPT-2模型包括了以下的定义参数: 123456789GPT_CONFIG_124M = { "vocab_size": 50257, # Vocabulary size
2025-05-03
LLM > 从零构建大模型
#大模型

【从零构建大模型】二、编码Attention机制

概览构建大模型的全景图如下,本文介绍了基础的attention处理。 介绍的脉络如下: 介绍The problem with modeling long sequences对于类似翻译的任务,由于不同语言的语法问题,所以难以做到一对一的逐字翻译,需要提前对原本的字符串进行encoder提取信息,然后使用decoder模块进行翻译。 而传统的encoder-decoder RNNs方法在enco
2025-05-02
LLM > 从零构建大模型
#大模型

【从零构建大模型】一、文本数据处理

概览构建大模型的全景图如下,本文介绍了最开始的数据处理。 数据处理的全景图如下所示,大致流程为: 将原文本,一般为一个string,进行分割。 对分割后的词转化为id。 生成一个embeddings层,然后id作为序号去embeddings层中取对应的行作为自己的表征。 如此转化后就将原本深度学习模型不能处理的原始数据转化为了可以处理的矩阵,同时我们希望这最后表示原始数据的矩阵中也能
2025-05-01
LLM > 从零构建大模型
#大模型

大模型 kvcache 浅析

需要清楚知道它的限制,即限制在: 推理阶段 decoder-only架构,单向注意力 推理回顾假设模型最终生成了“遥遥领先”4个字。 当模型生成第一个“遥”字时,input=”<s>”, “<s>”是起始字符。Attention的计算如下: 为了看上去方便,我们暂时忽略scale项根号d, 但是要注意这个scale面试时经常考。 如上图所示,最终Atte
2025-04-25
LLM
#大模型

Transformer 中Decoder-only、Encoder-only、Decoder-encoder架构区别

不同架构的特点Encoder-Decoder 模型 特点:包含编码器和解码器两个部分。编码器处理输入序列,生成上下文向量;解码器则根据编码器的输出生成目标序列。这个结构能够同时处理输入和输出序列的关联。 典型模型:T5(Text-to-Text Transfer Transformer) 、BART 应用:序列到序列任务,如机器翻译、摘要生成。
2025-04-23
LLM
#大模型

Transformer 详解

概览 Transformer由两个部分组成,包括Decoder和Encoder两个部分 Self-attention对于输入X,我们有对应的WQ、WK、WV矩阵,可以计算得到,Q、K、V Q代表查询向量(Query) K代表键向量(Key),KQ其实就代表了对于各个字符的注意力 V代表值向量(Value),需要与注意力相乘得倒最后的值 然后依据下面的公式可以计算出对应的Attentio
2025-04-22
LLM
#大模型

大模型训练-优化器整理

优化器指的是对于我们的一堆模型参数 θ ,以及一个损失函数 L(θ) ,如何找到找到 L(θ) 的最小值。 SGD随机梯度下降 Stochastic Gradient Descent SGD 是最为基础的梯度下降方法。 其核心思路是:在每一步迭代中,用当前的梯度,按着负梯度方向把参数“推”一点,直到 loss 变得更小。 对于一个模型参数 θ,目标是最小化损失函数 L(θ),SGD 每一步的更新公
2025-04-12
LLM
#大模型
123…5

搜索

Hexo Fluid
总访问量 次 总访客数 次