【论文阅读】ScheMoE:An Extensible Mixture-of-Experts Distributed Training System with Tasks Scheduling
链接:https://dl.acm.org/doi/10.1145/3627703.3650083 发表会议:EuroSys ‘24(CCF-A) 团队:哈工大、香港科技、华为 背景 Moe架构的大模型愈发流行,而Moe流程中存在将数据通过通信转发给对应GPU上专家的行为,如下图是数据并行与专家并行的示例,这种通信行为会导致系统训练效率降低。 现有的优化Moe训练效率的