【论文阅读】Reducing Activation Recomputation in Large Transformer Models
链接:: https://arxiv.org/pdf/2205.05198.pdf 发表会议:MLSYS’22(CCF-B) 团队:NVIDIA 背景在论文发表的2022年看来,一些研究在Transformer大模型训练中会采用激活重计算而不是存储的方式来减少激活值所占存储,但是其问题在于会引入很多冗余计算的开销,导致训练效率降低。故本文提出了序列并行和选择性激活重计算方法,