滑滑蛋
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

【论文阅读】{MegaScale}:Scaling Large Language Model Training to More Than 10,000 {GPUs}

论文基础信息论文地址: {MegaScale}: Scaling Large Language Model Training to More Than 10,000 {GPUs} 收录会议: 21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24)(CCF-A,计算机网络顶级会议) 作者机构: 字节
2024-08-18
AI集群
#论文阅读 #分布式训练 #LLM

【论文阅读】Fluid:Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs

论文基础信息论文地址: Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs 收录会议: 2022 IEEE 38th International Conference on Data Engineering (ICDE)(CCF-A,数据库领域顶会) 作者机
2024-08-17
AI集群
#论文阅读 #集群缓存

设置Clash代理,彻底解决linux系统Docker pull的问题

因为当前政策的收紧,很多docker镜像网站和加速器都不能使用了,虽然目前还有一些可以使用,但是打游击战终究是不可靠的,在可以预见的将来肯定会更加难以下载docker镜像,而我也厌烦了各种docker pull失败,所以这里直接使用clash设置代理,翻入墙外来彻底解决这个问题。 安装配置Clash1. 下载Clash 由于原Clash已经删库跑路,所以可以使用镜像地址下载linux版本的clas
2024-06-23
Docker
#Docker

CNCF项目全景图介绍

云原生计算基金会(CNCF)介绍CNCF(Cloud Native Computing Foundation)官网链接:https://www.cncf.io/ 官方的介绍如下: 云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式API。 这些技术能够构建容错性好、易于管理和便于观察的松耦
2024-06-09
其他

【K8s源码分析(六)】-K8s中Pod拓扑分布约束(Pod Topology Spread Constraints)插件介绍

本次分析参考的K8s版本是v1.27.0。 前言在 k8s 集群调度中,亲和性相关的概念本质上都是控制 Pod 如何被调度 – 堆叠或打散。podAffinity 以及 podAntiAffinity 两个特性对 Pod 在不同拓扑域(拓扑键-拓扑值构成了一个拓扑域,例如region-east)的分布进行了一些控制,podAffinity 可以将无数个 Pod 调度到特定的某一个拓扑域,这是堆叠的
2024-05-12
k8s > 源码分析
#k8s #源码分析

【K8s源码分析(五)】-K8s中Pod亲和性调度插件介绍

本次分析参考的K8s版本是v1.27.0。 前言K8s调度器v1版的的默认的插件都在pkg/scheduler/apis/config/v1/default_plugins.go:30 中,如下 1234567891011121314151617181920212223242526272829303132// getDefaultPlugins returns the default set of
2024-05-11
k8s > 源码分析
#k8s #源码分析

【K8s源码分析(四)】-K8s调度器绑定周期介绍

本次分析参考的K8s版本是v1.27.0。 K8s的整体调度框架如下图所示。 bindeCycle顶层函数K8s调度器中绑定周期的函数bindingCycle在pkg/scheduler/schedule_one.go:225中,如下,补充了一些注释。 123456789101112131415161718192021222324252627282930313233343536373839404
2024-05-10
k8s > 源码分析
#k8s #源码分析

【K8s源码分析(三)】-K8s调度器调度周期介绍

本次分析参考的K8s版本是v1.27.0。 K8s的整体调度框架如下图所示。 调度框架顶层函数K8s调度器调度的核心函数schedulerone在pkg/scheduler/schedule_one.go:62,如下,这里将一些解释写在了注释里 1234567891011121314151617181920212223242526272829303132333435363738394041424
2024-05-10
k8s > 源码分析
#k8s #源码分析

【K8s源码分析(二)】-K8s调度队列介绍

本次分析参考的K8s版本是v1.27.0。 调度队列简介这里是官方对于K8s中调度队列的介绍,很值得一看:Scheduling queue in kube-scheduler。整体的架构如下图所示。 简单来说K8s中的调度队列主要有3种: ActiveQ(heap结构):在每个调度周期开始时都会从这里取出一个Pod尝试调度。一开始提交的所有没有指定.spec.nodeName的Pod都会发送到
2024-05-10
k8s > 源码分析
#k8s #源码分析

【K8s源码分析(一)】-K8s调度框架及调度器初始化介绍

本次分析参考的K8s版本是v1.27.0。 调度框架介绍这是官方对于v1.27调度框架的介绍文档:https://v1-27.docs.kubernetes.io/docs/concepts/scheduling-eviction/scheduling-framework/ 将调度器的实现转化为插件的形式有助于加强调度器的拓展性、灵活性,同时也使得调度核心的实现更加的轻量、可维护。 下图展示了Po
2024-05-10
k8s > 源码分析
#k8s #源码分析
1234567

搜索

Hexo Fluid
总访问量 次 总访客数 次