我的KubeCon China 2023总结

首先感谢karmada社区提供的kubeCon票,并在现场遇到了zhen chang、hongcai Ren、Wei jiang等karmada的核心贡献和维护者。

往年参加技术大会,如雁过无痕,没有留下深刻印象,没有收到收获。这次强迫自己记录一下,加深映像总结收获。

由于对在离线混部感兴趣,所以听的分享基本都跟这个有关系。

更新:kubecon china 2023的所有视频录像已经出来了,YouTube地址微信公众号文章

PPT地址:https://kccncosschn2023.sched.com/?iframe=no

istioCon china 2023 PPT:https://istioconchina2023.sched.com/ https://github.com/cloudnativeto/academy/tree/master/istiocon-china-2023

使用KubeRay和Kueue在Kubernetes中托管Sailing Ray工作负载 | Sailing Ray Workloads with KubeRay and Kueue in Kubernetes - Jason Hu, Volcano Engine & Kante Yin, DaoCloud

视频地址: youtube 微信公众号

之前只了解过kueue是kubernetes兴趣小组的项目,进行job队列的管理。这次了解了它的工作原理基于MutatingWebhook,对各类job资源进行拦截进行队列管理,并添加NodeAffinity。

kueue works

kueue api

kueue apis admin

kueue overview

controller-runtime每天的新功能–使您的Operator更高效 | What’s New on Controller-Runtime of the Day – Make Your Operator More Efficient - Siyu Wang, Alibaba Cloud

视频地址: youtube 微信公众号

主要讲了0.14到0.16之间的新功能和一些坑,controller-runtime是开发各种controller和operator的框架,但是它的文档基本没有,每个版本更新内容需要自己扒代码才能清楚。

现场跟酒祝探讨了workQueue中只能保存Name和Namespace字段,对于某些场景不是很友好,比如vpa关联的deployment、pod等,按照这种框架代码会写的很复杂。收到答复社区对这个设计模型应该不会改。

版本兼容的坑

controller-runtime version compatibility

多集群的支持

抽象出cluster概念,一个manager管理多个cluster,一个controller对应多个集群

controller-runtime multi cluster

可以禁用deepcopy

解决内存占用过多问题,在1.28版本中Reflector也有类似的优化https://github.com/kubernetes/kubernetes/pull/113362

controller-runtime disable deep copy

各个组件架构图

controller-runtime cache

Controller Mesh

可以进行controller灰度、熔断监控

controller-runtime controller mesh

contoller-runtime controller mesh

contoller-runtime controller mesh

contoller-runtime controller mesh

项目更新和深入探讨:containerd | Project Update and Deep Dive: Containerd - Wei Fu, Microsoft & Iceber Gu, DaoCloud

视频地址:YouTube 微信公众号

介绍1.7版本的containerd的新功能

1.6是首个LTS版本

containerd release

1.7的变化

containerd v1.7 changes

2.0的发布计划

containerd 2.0

wasm

containerd wasm

使用Volcano更轻松高效地在Kubernetes上运行您的AI工作负载和微服务 | Run Your AI Workloads and Microservices on Kubernetes More Easily and Efficiently with Volcano - William Wang, Huawei Cloud

视频地址:YouTube 微信公众号

介绍了volcano的功能,应用场景,未来的计划。解决公司的大数据上k8s的各种问题,很有帮助,后面会进行调研。

对于volcano和kueue的区别,咨询了kueue的maintainer Kante Yin。 kqueue是解决队列问题它不在调度器上实现的,而是独立组件。valcano是在调度器里解决队列问题,他们两个有一些相同的功能。koordinator是在离线混部署方面跟volcano也有类似的功能。

没有ppt

基于生产案例详细解析和重现Istio访问日志的各种应答标记 | Detailed Parse and Reproduce Response Flags of Istio Access Log Based on Production Use Case - Chaomeng Zhang, Huawei

视频地址:YouTube 微信公众号

介绍istio proxy的日志里Response Flags 字段各种含义,以及对于的各种场景。ppt里包含各种细节的总结,是一个非常不错的排查手册。Chaomeng Zhang一定是个老司机,见过超多的envoy问题。让我想起以前精通nginx各种错误的那段经历。

可惜没有ppt,等待更新

构建一个主动-主动的高可用Kubernetes控制平面集群 | Building an Active-Active HA Kubernetes Control Plane Cluster - MinJie Huang & WenJie Song, DaoCloud; Jiashun Dai, SAIC General Motors

视频地址:YouTube 微信公众号

介绍active-active的kubernetes集群高可用方案。但是说实话我并没有听懂,只能后面再看录像,仔细研究。

Active-Active HA Kubernetes Control Plane

Active-Active HA Kubernetes Control Plane

云原生技术与文化背景:跨境最大化业务价值 | Cloud Native Technology and Cultural Context: Maximizing Business Value Across Borders - Katerina Arzhayev, SUSE

视频地址:YouTube 微信公众号

介绍中西在企业管理方面的差别,主要介绍西方的做事风格。为了验证我的英语听力水平,我特意选了个英文讲座。发现基本都能够听懂,也许是分享人的口语非常标准,提问者带了个印度口音完全听不懂。

在Kubernetes上构建一个精细化和智能化的资源管理系统 | Building a Fine-Grained and Intelligent Resource Management System on Kubernetes - He Cao & Wei Shao, ByteDance

视频地址:YouTube 微信公众号

介绍字节开源的Katalyst 各种功能,以及字节在资源管理方面的实践。其中有多处对kubelet进行了二次开发和内核的增强。

这个也是在离线混部的实践,后面会进行调研。

Katalyst colocation

Katalyst qos

这个是字节对kubelet进行了二次开发

Katalyst qos resource manager

基于机器学习的服务画像

Katalyst Machine Learning-Based Service Profiling

字节的系统内核增强

Katalyst Kernel Enhancements

Katalyst dynamic manage

GPU共享

Katalyst gpu sharing

拓扑感知调度

Katalyst Topology-Aware Scheduling

资源效能套件

Katalyst Resource Efficiency Suite

Kubernetes上的干扰检测和资源隔离增强的最佳实践 | Best Practice for Interference Detection and Resource Isolation Enhancement on Kubernetes - Haogang Wang, Kuaishou

视频地址: YouTube 微信公众号

介绍快手在资源隔离和拓扑感知方面做的工作,这方面在koordinator、crane等项目和字节Katalyst 里都做了类似的工作。

Best Practice for Interference Detection and Resource Isolation

Best Practice for Interference Detection and Resource Isolation

Best Practice for Interference Detection and Resource Isolation

Best Practice for Interference Detection and Resource Isolation

只是噪音还是真正的字节?云原生中的eBPF | Just Buzz or Real Byte? eBPF in Cloud Native - Bill Mulligan, Isovalent

视频地址: YouTube 微信公众号

由于我是cilium的contributor所以我去听了这个分享,内容还是比较简单,主要是介绍ebpf及应用和相关的项目。目前ebpf还是在起步阶段,并没有大规模的普及。

分享结束跟Bill Mulligan和vmware的人进行了交流,我的口语不流利,不过交流过程很自然并没有紧张,以后要经常练就行。

这次kubeCon的人数比2019年少很多,有一些云厂商已经不赞助了。分享的主题感觉没有那么的惊艳(主题没有新意),但是还是有很多有质量的分享。

相关内容