2024开源之夏参与经验总结 背景最近参与了2024年中科院举办的开源之夏活动,完成了字节跳动开源的Godel Scheduler的”基于 Godel Scheduler 实现应用亲和/反亲和以及均匀分布功能“的项目。这里做一个经验贴,希望能帮助到后面想要参与到这个项目中的人来。 项目报名下面这个是2024年整体的一个活动时间。 我印象中在4月29号之前就已经在陆陆续续放出会参与到开源之夏活动中的项目了,所以可以在 2024-12-02 开源之夏 #开源之夏
如何在K8s集群中管理与使用GPU 背景随着人工智能的兴起,GPU作为重要的智算算力类型愈发受到重视,而Kubernetes(k8s)作为业界主流的集群管理系统,如何方便管理、使用GPU也是其需要解决的一大问题,故此收集整理了K8s管理与使用GPU的相关资料以学习。 物理机如何使用GPU如果给一台普通的物理机,例如我们日常用的笔记本电脑应该如何使用GPU呢。其主要涉及到两个插件的安装,分别是Nvidia Driver和CUDA To 2024-11-19 k8s > 基础知识 #k8s #GPU #AI
InternLM 书生大模型实战营 1. 入门岛1.1 第一关 Linux 基础知识闯关任务 完成SSH连接与端口映射并运行hello_world.pyhello_world运行截图: 访问截图: 可选任务2 使用 VSCODE 远程连接开发机并创建一个conda环境创建一个名为py310的conda环境,安装python3.10 1.2 第二关 Python 基础知识闯关任务 Python实现wordcountwordcou 2024-09-13 书生大模型实战营 #InternLM #大模型
【论文阅读】{MegaScale}:Scaling Large Language Model Training to More Than 10,000 {GPUs} 论文基础信息论文地址: {MegaScale}: Scaling Large Language Model Training to More Than 10,000 {GPUs} 收录会议: 21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24)(CCF-A,计算机网络顶级会议) 作者机构: 字节 2024-08-18 AI集群 #论文阅读 #分布式训练 #LLM
【论文阅读】Fluid:Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs 论文基础信息论文地址: Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs 收录会议: 2022 IEEE 38th International Conference on Data Engineering (ICDE)(CCF-A,数据库领域顶会) 作者机 2024-08-17 AI集群 #论文阅读 #集群缓存
设置Clash代理,彻底解决linux系统Docker pull的问题 因为当前政策的收紧,很多docker镜像网站和加速器都不能使用了,虽然目前还有一些可以使用,但是打游击战终究是不可靠的,在可以预见的将来肯定会更加难以下载docker镜像,而我也厌烦了各种docker pull失败,所以这里直接使用clash设置代理,翻入墙外来彻底解决这个问题。 安装配置Clash1. 下载Clash 由于原Clash已经删库跑路,所以可以使用镜像地址下载linux版本的clas 2024-06-23 Docker #Docker
CNCF项目全景图介绍 云原生计算基金会(CNCF)介绍CNCF(Cloud Native Computing Foundation)官网链接:https://www.cncf.io/ 官方的介绍如下: 云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式API。 这些技术能够构建容错性好、易于管理和便于观察的松耦 2024-06-09 其他
【K8s源码分析(六)】-K8s中Pod拓扑分布约束(Pod Topology Spread Constraints)插件介绍 本次分析参考的K8s版本是v1.27.0。 前言在 k8s 集群调度中,亲和性相关的概念本质上都是控制 Pod 如何被调度 – 堆叠或打散。podAffinity 以及 podAntiAffinity 两个特性对 Pod 在不同拓扑域(拓扑键-拓扑值构成了一个拓扑域,例如region-east)的分布进行了一些控制,podAffinity 可以将无数个 Pod 调度到特定的某一个拓扑域,这是堆叠的 2024-05-12 k8s > 源码分析 #k8s #源码分析
【K8s源码分析(五)】-K8s中Pod亲和性调度插件介绍 本次分析参考的K8s版本是v1.27.0。 前言K8s调度器v1版的的默认的插件都在pkg/scheduler/apis/config/v1/default_plugins.go:30 中,如下 1234567891011121314151617181920212223242526272829303132// getDefaultPlugins returns the default set of 2024-05-11 k8s > 源码分析 #k8s #源码分析
【K8s源码分析(四)】-K8s调度器绑定周期介绍 本次分析参考的K8s版本是v1.27.0。 K8s的整体调度框架如下图所示。 bindeCycle顶层函数K8s调度器中绑定周期的函数bindingCycle在pkg/scheduler/schedule_one.go:225中,如下,补充了一些注释。 123456789101112131415161718192021222324252627282930313233343536373839404 2024-05-10 k8s > 源码分析 #k8s #源码分析