2026 年 5 月 13 日,CNCF 正式公布了第二届日本站 KubeCon + CloudNativeCon 的日程安排。去年首届日本站已经证明了亚太区云原生社区的活跃度,今年移师横滨,议题重心明显向 AI 融合、可观测性、平台工程三个方向倾斜——这三个方向恰好也是一线团队正在落地或纠结的技术选型焦点。
议题风向:从"跑容器"到"跑智能"
今年日程中最突出的变化是 AI 相关 session 数量大幅增加。这不是凑热点——Kubernetes 社区确实在解决 GPU 调度、模型服务编排、推理工作流管理等真实问题。几个值得关注的方向:
- GPU 共享调度:KEP-4875 引入的 DeviceClass 和分区分配机制,让单卡可以按比例切给多个 Pod,推理场景下利用率从 30% 提升到 80% 以上。
- 模型服务标准化:KServe / ModelMesh 逐步成为推理服务的默认部署模式,类似 Deployment 对无状态服务的意义。
- AI 工作流编排:Kubeflow Pipelines 和 Argo Workflows 在训练流水线上的竞争与互补。
可观测性方面,OpenTelemetry 已经从"推荐采用"变成"默认选择",今年大量 session 围绕 OTel + eBPF 的零侵入采集、Trace 到 Metric 的关联分析展开。平台工程则聚焦于如何用 Backstage + Crossplane 把内部开发平台从"文档 wiki"升级为"可操作的控制面"。
实战:用 OpenTelemetry + eBPF 做零侵入可观测性
如果你还没在集群里跑 OTel,以下是一个最小化部署方案——用 OTel Operator 自动注入 sidecar,配合 Beyla(eBPF 采集器)实现零代码修改的 Trace + Metric 采集。
先创建命名空间和 Operator:
# 安装 OpenTelemetry Operator
kubectl apply -f https://github.com/open-telemetry/opentelemetry-operator/releases/latest/download/opentelemetry-operator.yaml
# 等待 Operator 就绪
kubectl wait deployment/opentelemetry-operator --for=condition=available -n opentelemetry-operator-system --timeout=120s
部署 Beyla 做 eBPF 采集(无需改业务代码):
apiVersion: opentelemetry.io/v1beta1
kind: OpenTelemetryCollector
metadata:
name: beyla-pipeline
namespace: observability
spec:
mode: daemonset
config:
receivers:
otlp:
protocols:
grpc:
endpoint: 0.0.0.0:4317
processors:
batch:
send_batch_size: 1024
timeout: 5s
exporters:
otlphttp:
endpoint: http://jaeger-collector.monitoring:14268/api/traces
prometheusremotewrite:
endpoint: http://prometheus.monitoring:9090/api/v1/write
service:
pipelines:
traces:
receivers: [otlp]
processors: [batch]
exporters: [otlphttp]
metrics:
receivers: [otlp]
processors: [batch]
exporters: [prometheusremotewrite]
然后给需要观测的 Deployment 打上注解,Operator 会自动注入 sidecar:
apiVersion: apps/v1
kind: Deployment
metadata:
name: my-api
annotations:
instrumentation.opentelemetry.io/inject-java: "true"
spec:
replicas: 3
selector:
matchLabels:
app: my-api
template:
metadata:
labels:
app: my-api
spec:
containers:
- name: app
image: my-api:latest
ports:
- containerPort: 8080
关键点:instrumentation.opentelemetry.io/inject-java 注解让 Operator 自动给 Pod 注入 Java Agent sidecar。Python 服务换成 inject-python,Node 服务换成 inject-nodejs。Beyla 则在节点层面用 eBPF 捕获 HTTP 调用,两者互补——sidecar 拿到应用内部 Trace,eBPF 拿到跨服务调用拓扑。
部署完成后验证数据流:
# 检查 Collector 是否收到 Trace
kubectl logs -n observability deployment/beyla-pipeline-collector --tail=20
# 在 Jaeger UI 搜索最近 5 分钟的 Trace
# 访问 http://jaeger.monitoring:16686/search?limit=20&lookback=5m
平台工程:从 Backstage 到可操作平台
今年 KubeCon Japan 的平台工程议题反复提到一个共识:内部开发者平台如果只是文档和链接的集合,开发人员不会用它。真正的平台需要"可操作"——开发者能在平台上直接创建数据库、申请缓存实例、配置网络策略,而不是跳到五个不同控制台。
Crossplane + Backstage 的组合是目前最主流的实现路径。一个最小化示例——用 Crossplane Composition 让开发者通过一个 YAML 申请 AWS RDS 实例:
apiVersion: apiextensions.crossplane.io/v1
kind: Composition
metadata:
name: postgres-rds
spec:
compositeTypeRef:
apiVersion: myplatform.example.com/v1alpha1
kind: XPostgres
resources:
- name: rds-instance
base:
apiVersion: rds.aws.upbound.io/v1beta1
kind: Instance
spec:
forProvider:
engine: postgres
engineVersion: "15.4"
instanceClass: db.t3.medium
allocatedStorage: 20
region: ap-northeast-1
providerConfigRef:
name: aws-provider
patches:
- fromFieldPath: spec.parameters.storageSize
toFieldPath: spec.forProvider.allocatedStorage
- fromFieldPath: spec.parameters.instanceClass
toFieldPath: spec.forProvider.instanceClass
开发者只需要提交一个极简的 Claim:
apiVersion: myplatform.example.com/v1alpha1
kind: PostgresClaim
metadata:
name: team-a-db
namespace: team-a
spec:
parameters:
storageSize: 50
instanceClass: db.t3.medium
compositionRef:
name: postgres-rds
Backstage 的 Catalog 可以把 PostgresClaim 注册为 API 资源,开发者在 Backstage 页面点击"Create"就能触发模板生成 Claim YAML,整个流程不需要碰 AWS Console。
参会与跟进建议
如果你打算去横滨现场或远程跟进,几个实用建议:
- 优先排 AI + K8s 的 session:GPU 调度、推理服务、训练流水线这三个方向各有独立演进,但正在收敛。理解它们的关系比单独看一个更重要。
- 可观测性不要只听工具介绍:关注 Trace-Metric-Log 关联的实战案例,尤其是多集群场景下的采集策略——这才是真正踩坑的地方。
- 平台工程看 Composition 设计:Crossplane 的 Composition 写法决定了开发者体验,看别人怎么拆 Composed Resource 比看 Backstage 插件更有价值。
- 提前装好环境:上面给的 OTel + Beyla 和 Crossplane 示例,在会议前跑一遍,听 session 时能对照自己的部署理解细节差异。
横滨站日程已经公开,议题列表在 CNCF 官网可查。即使不现场参会,后续录播和 slide 也会陆续发布——但提前动手跑一遍相关工具,看录播时的理解深度会完全不同。