怎样在云原生混部场景下利用资源配额高效分配集群资源?
发布时间:2022-04-25 08:54:03 所属栏目:云计算 来源:互联网
导读:在阿里集团,离线混部技术从 2014 年开始,经历了七年的双十一检验,内部已实现大规模落地推广,每年为阿里集团节省数十亿的资源成本,整体资源利用率为 70%左右,达到业界领先水平。这两年,我们开始把集团内的混部技术通过产品化的方式输出给业界,通过插
在阿里集团,离线混部技术从 2014 年开始,经历了七年的双十一检验,内部已实现大规模落地推广,每年为阿里集团节省数十亿的资源成本,整体资源利用率为 70%左右,达到业界领先水平。这两年,我们开始把集团内的混部技术通过产品化的方式输出给业界,通过插件化的方式无缝安装在标准原生的 K8s 集群上,配合混部管控和运维能力,提升集群的资源利用率和产品的综合用户体验。 由于混部是一个复杂的技术及运维体系,包括 K8s 调度、OS 隔离、可观测性等等各种技术,之前的一篇文章《 历经 7 年双 11 实战,阿里巴巴是如何定义云原生混部调度优先级及服务质量的? 》,主要聚焦在调度优先级和服务质量模型上,今天我们来关注一下资源配额多租相关的内容。 首先想提一个问题,在设计上,既然 K8s 的调度器已经可以在没有资源的情况下,让 pod 处于 pending 状态,那为什么,还需要有一个资源配额(Resource Quota)的设计? 回到原问题,一个集群的资源一定是有限的,无论是物理机上的 CPU、内存、磁盘,还有一些别的资源例如 GPU 卡这些。光靠调度,是否能解决这个问题呢?如果这个集群只有一个用户,那么这个问题其实还是能忍受的,例如看到 pod pending了,那就不创建新的 pod 了;如果新的 pod 比较重要,这个用户可以删掉旧的 pod,然后再创建新的。但是,真实的集群是被多个用户或者说团队同时使用的,当 A 团队资源不够了,再去等 B 团队的人决策什么应用可以腾挪出空间,在这个时候,跨团队的交流效率是非常低下的。所以在调度前,我们就需要再增加一个环节。 ![]() 在这个环节内,引入了资源配额和租户这 2 个概念。租户,是进行资源配额调配的团队单位。配额,则是多个租户在使用有限的集群资源时,互相在事先达成的一个共识。事先是一个非常重要的关键词,也就是说不能等到 pod 到了调度时、运行时,再去告诉创建者这个 pod 因为配额不足而创建不出来,而是需要在创建 pod 之前,就给各个团队一个对资源的心理预期,每年初在配置资源配额时,给 A 团队或者 B 团队定一个今年可以使用的配额总量,这样当 A 团队配额用完时,A 团队内部可以先进行资源优先级排序,把不重要的 pod 删除掉,如果还不够,那就再和 B 团队商量,是否可以从 B 团队的配额划分一些配额过来。这样的话,就无需任何情况下都要进行点对点的低效率沟通。A 团队和 B 团队在年初的时候就需要对自己的业务的资源用量,做一个大概的估算,也就是资源预算。 云原生混部在配额方面,和社区的第二个区别在哪里呢?可以看到的是,引入混部后会引入大量的离线运算任务,和比较有规律的在线业务相比,离线任务像洪水一样是一波一波的,在整个时间区间内更不规律。有可能 A 团队在跑大数据计算,把自己的低优配额都跑完了,但是 B 团队的大数据计算这个时候还没跑,还有空闲的配额。 那么,是否可以把这部分的配额利用起来,先“借”给 A 部门使用呢?这里就可以引入另外一个能力,基于容量的配额调度。 支持定义不同层级的资源配额。如上图所示,您可以根据具体情况(比如:公司的组织结构)配置多个层级的弹性配额。弹性配额组的叶子节点可以对应多个 Namespace,但同一个 Namespace 只能归属于一个叶子节点。 支持不同弹性配额之间的资源借用和回收。 Min:您可以使用的保障资源(Guaranteed Resource)。当整个集群资源紧张时,所有用户使用的 Min 总和需要小于集群的总资源量。 Max:您可以使用的资源上限。 引入了这个弹性配额调度后,我们发现组织中多个团队在使用低优资源时的“弹性”更强了,当 B 团队有空闲的配额时,可以动态的“借”给 A 团队使用,反之亦然。这样集群在全时间段里面的利用率进一步提升,更充分和有效的利用了集群的资源。 进入了 2022 年,混部在阿里内部已经成为了一个非常成熟的技术,为阿里每年节省数十亿的成本,是阿里数据中心的基本能力。而阿里云也把这些成熟的技术经过两年的时间,沉淀成为混部产品,开始服务于各行各业。 在阿里云的产品族里面,我们会把混部的能力通过 ACK 敏捷版 , 以及 CNStack(CloudNative Stack)产品家族 ,对外进行透出,并结合龙蜥操作系统(OpenAnolis),形成完整的 云原生数据中心混 部的 一体化解决方案 ,输出给我们的客 (编辑:开发网_开封站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |