Cluster Audit Report - 2026-02-14

1. 基础设施概览 (Infrastructure)

  • 集群状态: ✅ 正常
  • 节点状态:
    • master-01: Ready
    • worker-01: Ready
    • worker-02: Ready
    • worker-03: Ready
  • 磁盘压力: ✅ 无 (No DiskPressure)

2. 异常 Pods (Abnormal Pods)

Namespace Name Status Reason
default w03-final Error 任务执行失败
infra postgres-backup-29510100-xrthd ImagePullBackOff 镜像拉取失败
kube-system master-disk-check CrashLoopBackOff 脚本执行异常

3. 存储审计 (Storage Audit)

3.1 Longhorn 物理卷 (New!)

规则:物理占用 > 70% 规格或超过规格即报警。
  • ⚠️ 警告: npm/npm-data-pvc
    • 规格: 2.00Gi
    • 实际物理占用: 1.38Gi (73%)
    • 建议: 检查是否存在过多历史快照,或扩容 PVC。
  • ✅ 正常:
    • apps/ghost-content-pvc (2%)
    • apps/ghost-mysql-pvc (3%)
    • infra/postgres-pvc (6%)
    • 其他卷均在安全范围内。

3.2 高可用检查 (HA Check)

  • 提示: 以下应用使用单副本 longhorn (非 HA),生产环境建议迁移至 HA:
    • ghost-content-pvc
    • ghost-mysql-pvc
    • ghost-pvc
    • nocodb-pvc
    • npm-data-pvc
    • npm-letsencrypt-pvc

3.3 传统文件系统 (Filesystem)

  • 扫描 infra, npm, apps 命名空间:未发现逻辑挂载点占用超过 80% 的情况。

4. 关键行动项 (Action Items)

  1. NPM 存储: 清理 npm-data-pvc 的 Longhorn 快照或规划扩容。
  2. 修复 Pod: 检查 infra/postgres-backup 镜像地址。
  3. 检查脚本: kube-system/master-disk-check 持续崩溃,需排查。
Share this article
The link has been copied!