HPA怎么配置？Kubernetes自动扩缩容实践

HPA怎么配置，不能只理解为写一个副本数范围和 CPU 阈值。真正可落地的 Kubernetes自动扩缩容，需要先确认应用是否适合水平扩展，再把资源 Request、指标采集、扩缩容窗口、下游容量和发布策略放在一起设计。否则 HPA 看起来已经启用，生产中仍可能出现频繁抖动、扩容不及时、扩容后性能无改善，甚至把数据库或消息队列压垮。

本文适用范围

本文面向已经使用 Kubernetes 部署无状态服务、API 网关、后台任务消费者或轻量计算任务的团队。重点回答三个问题：第一，HPA 应该依赖哪些前置条件；第二，生产环境配置应如何从基础 CPU 指标逐步走向多指标；第三，如何验证扩缩容行为是否真的改善了稳定性与成本。

如果业务仍然是强状态单实例、启动时间很长、扩容后下游资源无法承接，建议先做应用架构治理，再配置 HPA。自动扩缩容解决的是容量匹配问题，不是所有性能问题的通用答案。

HPA的工作机制先看清楚

HPA 会周期性读取指标，把当前指标值与目标值进行比较，然后计算期望副本数。以 CPU 利用率为例，HPA 通常会基于容器 Request 计算利用率。也就是说，Request 不是简单的资源声明，而是扩缩容计算的重要基准。

一个常见误区是：应用实际需要 500m CPU，但 Request 只写 100m，结果 CPU 利用率很快超过目标值，HPA 频繁扩容；另一个误区是 Request 写得过大，HPA 迟迟不扩容，流量高峰已经造成延迟。稳定的 HPA 配置，往往先从资源画像开始，而不是直接套用模板。

配置HPA前的四项检查

应用能否水平扩展：新增副本后是否能平均分摊请求，是否存在本地状态、固定连接、单点锁或节点绑定。
容器资源是否可信：CPU、内存 Request 是否来自历史监控和压测结果，而不是随手估算。
指标链路是否完整：metrics-server、自定义指标适配器、监控系统和告警链路是否稳定。
下游容量是否匹配：数据库连接池、缓存、消息队列、第三方接口限流是否能承受副本增加后的并发。

这四项没有确认，HPA 可能只是把压力从应用层转移到依赖层。

基础配置示例：先从CPU指标开始

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: web-api-hpa
  namespace: production
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: web-api
  minReplicas: 3
  maxReplicas: 12
  metrics:
    - type: Resource
      resource:
        name: cpu
        target:
          type: Utilization
          averageUtilization: 65
  behavior:
    scaleUp:
      stabilizationWindowSeconds: 60
    scaleDown:
      stabilizationWindowSeconds: 300

可以用以下命令查看 HPA 状态：

kubectl get hpa web-api-hpa 
  -n production 
  --watch

这个配置保留最小 3 个副本以承接基础流量，最大 12 个副本用于控制成本和保护下游。扩容窗口较短，缩容窗口较长，目的是更快响应流量上升，同时避免流量轻微下降就立即回收副本。

minReplicas和maxReplicas怎么定

最小副本数不是越低越省钱。对于线上服务，最小副本数至少要满足高可用、滚动发布和节点故障的基础要求。如果一个服务只有 1 个最小副本，HPA 仍然可能在扩容前经历冷启动延迟；如果节点维护或镜像拉取变慢，用户体验会明显波动。

最大副本数也不是越高越安全。过高的最大副本数可能让服务在短时间内制造大量连接和请求，反而压垮数据库、缓存或外部接口。建议以压测结果、下游限流能力和预算为边界，先设置保守上限，再通过观测逐步调整。

CPU指标适合哪些场景

CPU 指标适合计算密集型、无明显外部瓶颈、请求处理与 CPU 使用大致相关的服务。比如图片处理、部分规则计算、CPU 密集型 API，可以先用 CPU 利用率作为入口指标。

但很多业务只看 CPU 并不准确。网关服务可能瓶颈在连接数，搜索服务可能瓶颈在后端索引，消息消费者可能更关心队列堆积，推理服务可能更需要观察 GPU、显存和请求排队时间。因此，HPA 实践通常分两步：先用 CPU 建立基本弹性，再逐步引入业务指标。

什么时候需要自定义指标

当你发现 CPU 不高但延迟上升，或者 CPU 很高但扩容后吞吐没有改善，就应该评估自定义指标。常见指标包括 QPS、P95 延迟、队列长度、活跃连接数、请求排队时间、任务积压量。自定义指标的价值在于更贴近用户体验和业务压力，而不是只观察容器内部资源。

不过，自定义指标也会带来新问题：指标采集延迟、数据抖动、异常峰值和维度爆炸。生产环境建议先选择一两个高相关指标，经过压测和灰度验证后再推广，不要一开始就把规则设计得过于复杂。

扩缩容行为要治理，而不是只设阈值

HPA 的 behavior 字段可以控制扩容和缩容速度。扩容过慢会错过流量峰值，扩容过快会给下游带来冲击；缩容过快会导致刚降下来的流量再次上升时反复扩容，造成系统抖动。

实践中可以采用“快扩慢缩”的原则：扩容窗口短一些，允许在高峰时快速补充副本；缩容窗口长一些，等流量稳定下降后再回收资源。对长连接、批处理、消息消费类服务，还要配合优雅终止和就绪探针，避免缩容中断正在处理的请求。

生产验证清单

上线 HPA 后，不要只看副本数是否变化，而要连续观察扩容触发时间、新副本从创建到 Ready 的耗时、缩容是否造成连接中断、Pending 副本是否由节点容量或配额导致、下游依赖是否出现压力转移，以及成本是否因为节点无法回收或资源碎片而上升。

常见问题

HPA为什么一直显示unknown？

常见原因是指标链路不可用，例如 metrics-server 未正常工作、目标 Deployment 没有可读取的资源指标、容器没有配置 CPU Request，或者 HPA 引用的对象名称和命名空间不正确。排查时应先确认 Pod 指标是否能被读取，再检查 HPA 事件，而不是直接修改阈值。

HPA扩容了但接口还是慢，怎么办？

这说明瓶颈可能不在应用副本数量。需要检查数据库慢查询、连接池上限、缓存命中率、网络 IO、线程池、锁竞争和下游接口限流。HPA 只能提升可并行处理能力，如果请求都卡在同一个外部依赖上，增加 Pod 也不会明显改善体验。

CPU目标值设置多少合适？

没有统一标准。多数在线服务可以从 60% 到 70% 之间试点，再结合启动时间、流量波动和成本目标调整。启动慢、流量突增明显的服务应更保守；计算密集且启动快的服务可以适当提高水位。关键是用压测和历史监控验证，而不是照搬固定数字。

HPA和手动扩容会冲突吗？

如果 HPA 已经管理 Deployment 副本数，手动修改 replicas 可能很快被 HPA 覆盖。临时应急时可以调整 HPA 的 minReplicas 或 maxReplicas，也可以短暂停用 HPA，但需要在变更记录中说明恢复方式，避免应急动作长期遗留。

结语

HPA怎么配置，核心不是写出一段 YAML，而是建立从资源画像、指标选择、行为控制到生产验证的闭环。稳定的 Kubernetes自动扩缩容应当既能应对流量波动，又不把风险转移给下游系统。先用基础指标跑通，再用业务指标优化，最后通过平台化治理把经验沉淀为模板，才是更适合企业环境的实践路径。

转载请注明出处：https://www.cloudnative-tech.com/p/7455/