【论文阅读】ByteScale:Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000
链接:https://arxiv.org/abs/2502.21231 团队:ByteDance 背景 为了提升大语言模型的长上下文能力,长文本的训练是有必要的,经过通过Flash Attention技术可以将Attention相关计算的显存占用降低为O(S),但是计算量依旧为O(S^2),这会极大的消耗显存和算力。 为了降低显存开销,传统的方法是使用静态的数据并行叠加上下文并行,即固定