我的KubeCon China 2023总结

首先感谢karmada社区提供的kubeCon票,并在现场遇到了zhen chang、hongcai Ren、Wei jiang等karmada的核心贡献和维护者。

往年参加技术大会,如雁过无痕,没有留下深刻印象,没有收到收获。这次强迫自己记录一下,加深映像总结收获。

由于对在离线混部感兴趣,所以听的分享基本都跟这个有关系。

更新:kubecon china 2023的所有视频录像已经出来了,YouTube地址微信公众号文章

PPT地址:https://kccncosschn2023.sched.com/?iframe=no

istioCon china 2023 PPT:https://istioconchina2023.sched.com/ https://github.com/cloudnativeto/academy/tree/master/istiocon-china-2023

使用KubeRay和Kueue在Kubernetes中托管Sailing Ray工作负载 | Sailing Ray Workloads with KubeRay and Kueue in Kubernetes - Jason Hu, Volcano Engine & Kante Yin, DaoCloud

视频地址: youtube 微信公众号

之前只了解过kueue是kubernetes兴趣小组的项目,进行job队列的管理。这次了解了它的工作原理基于MutatingWebhook,对各类job资源进行拦截进行队列管理,并添加NodeAffinity。

image-20230929175613267

image-20230929180013728

image-20230929180716881

image-20230929180755335

controller-runtime每天的新功能–使您的Operator更高效 | What’s New on Controller-Runtime of the Day – Make Your Operator More Efficient - Siyu Wang, Alibaba Cloud

视频地址: youtube 微信公众号

主要讲了0.14到0.16之间的新功能和一些坑,controller-runtime是开发各种controller和operator的框架,但是它的文档基本没有,每个版本更新内容需要自己扒代码才能清楚。

现场跟酒祝探讨了workQueue中只能保存Name和Namespace字段,对于某些场景不是很友好,比如vpa关联的deployment、pod等,按照这种框架代码会写的很复杂。收到答复社区对这个设计模型应该不会改。

版本兼容的坑

image-20230929183208775

多集群的支持

抽象出cluster概念,一个manager管理多个cluster,一个controller对应多个集群

image-20230929183403165

可以禁用deepcopy

解决内存占用过多问题,在1.28版本中Reflector也有类似的优化https://github.com/kubernetes/kubernetes/pull/113362

image-20230929183825750

各个组件架构图

image-20230929184923201

Controller Mesh

可以进行controller灰度、熔断监控

image-20230929185255761

image-20230929185353505

image-20230929185424986

image-20230929185454928

项目更新和深入探讨:containerd | Project Update and Deep Dive: Containerd - Wei Fu, Microsoft & Iceber Gu, DaoCloud

视频地址:YouTube 微信公众号

介绍1.7版本的containerd的新功能

1.6是首个LTS版本

image-20230929204638473

1.7的变化

image-20230929204831543

2.0的发布计划

image-20230929210005252

wasm

image-20230929210300022

使用Volcano更轻松高效地在Kubernetes上运行您的AI工作负载和微服务 | Run Your AI Workloads and Microservices on Kubernetes More Easily and Efficiently with Volcano - William Wang, Huawei Cloud

视频地址:YouTube 微信公众号

介绍了volcano的功能,应用场景,未来的计划。解决公司的大数据上k8s的各种问题,很有帮助,后面会进行调研。

对于volcano和kueue的区别,咨询了kueue的maintainer Kante Yin。 kqueue是解决队列问题它不在调度器上实现的,而是独立组件。valcano是在调度器里解决队列问题,他们两个有一些相同的功能。koordinator是在离线混部署方面跟volcano也有类似的功能。

没有ppt

基于生产案例详细解析和重现Istio访问日志的各种应答标记 | Detailed Parse and Reproduce Response Flags of Istio Access Log Based on Production Use Case - Chaomeng Zhang, Huawei

视频地址:YouTube 微信公众号

介绍istio proxy的日志里Response Flags 字段各种含义,以及对于的各种场景。ppt里包含各种细节的总结,是一个非常不错的排查手册。Chaomeng Zhang一定是个老司机,见过超多的envoy问题。让我想起以前精通nginx各种错误的那段经历。

可惜没有ppt,等待更新

构建一个主动-主动的高可用Kubernetes控制平面集群 | Building an Active-Active HA Kubernetes Control Plane Cluster - MinJie Huang & WenJie Song, DaoCloud; Jiashun Dai, SAIC General Motors

视频地址:YouTube 微信公众号

介绍active-active的kubernetes集群高可用方案。但是说实话我并没有听懂,只能后面再看录像,仔细研究。

image-20230929214645538

image-20230929214744302

云原生技术与文化背景:跨境最大化业务价值 | Cloud Native Technology and Cultural Context: Maximizing Business Value Across Borders - Katerina Arzhayev, SUSE

视频地址:YouTube 微信公众号

介绍中西在企业管理方面的差别,主要介绍西方的做事风格。为了验证我的英语听力水平,我特意选了个英文讲座。发现基本都能够听懂,也许是分享人的口语非常标准,提问者带了个印度口音完全听不懂。

在Kubernetes上构建一个精细化和智能化的资源管理系统 | Building a Fine-Grained and Intelligent Resource Management System on Kubernetes - He Cao & Wei Shao, ByteDance

视频地址:YouTube 微信公众号

介绍字节开源的Katalyst 各种功能,以及字节在资源管理方面的实践。其中有多处对kubelet进行了二次开发和内核的增强。

这个也是在离线混部的实践,后面会进行调研。

image-20230929221934438

image-20230929222014210

这个是字节对kubelet进行了二次开发

image-20230929222118267

基于机器学习的服务画像

image-20230929222337225

字节的系统内核增强

image-20230929222455243

image-20230929222609027

GPU共享

image-20230929222716687

拓扑感知调度

image-20230929222759689

资源效能套件

image-20230929222848523

Kubernetes上的干扰检测和资源隔离增强的最佳实践 | Best Practice for Interference Detection and Resource Isolation Enhancement on Kubernetes - Haogang Wang, Kuaishou

视频地址: YouTube 微信公众号

介绍快手在资源隔离和拓扑感知方面做的工作,这方面在koordinator、crane等项目和字节Katalyst 里都做了类似的工作。

image-20230929223809251

image-20230929224008953

image-20230929224228870

image-20230929225029806

只是噪音还是真正的字节?云原生中的eBPF | Just Buzz or Real Byte? eBPF in Cloud Native - Bill Mulligan, Isovalent

视频地址: YouTube 微信公众号

由于我是cilium的contributor所以我去听了这个分享,内容还是比较简单,主要是介绍ebpf及应用和相关的项目。目前ebpf还是在起步阶段,并没有大规模的普及。

分享结束跟Bill Mulligan和vmware的人进行了交流,我的口语不流利,不过交流过程很自然并没有紧张,以后要经常练就行。

这次kubeCon的人数比2019年少很多,有一些云厂商已经不赞助了。分享的主题感觉没有那么的惊艳(主题没有新意),但是还是有很多有质量的分享。

相关内容