共计 61 篇文章
2025
大模型训练-优化器整理
Kubernetes Informer介绍
Kubeflow Trainer梳理
2024
2024开源之夏参与经验总结
如何在K8s集群中管理与使用GPU
InternLM 书生大模型实战营
【论文阅读】{MegaScale}:Scaling Large Language Model Training to More Than 10,000 {GPUs}
【论文阅读】Fluid:Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs
设置Clash代理,彻底解决linux系统Docker pull的问题
CNCF项目全景图介绍