cluster-audit
Cluster Audit Report - 2026-02-14
1. 基础设施概览 (Infrastructure)
- 集群状态: ✅ 正常
- 节点状态:
master-01: Readyworker-01: Readyworker-02: Readyworker-03: Ready
- 磁盘压力: ✅ 无 (No DiskPressure)
2. 异常 Pods (Abnormal Pods)
| Namespace | Name | Status | Reason |
|---|---|---|---|
default |
w03-final |
Error | 任务执行失败 |
infra |
postgres-backup-29510100-xrthd |
ImagePullBackOff | 镜像拉取失败 |
kube-system |
master-disk-check |
CrashLoopBackOff | 脚本执行异常 |
3. 存储审计 (Storage Audit)
3.1 Longhorn 物理卷 (New!)
规则:物理占用 > 70% 规格或超过规格即报警。
- ⚠️ 警告:
npm/npm-data-pvc- 规格: 2.00Gi
- 实际物理占用: 1.38Gi (73%)
- 建议: 检查是否存在过多历史快照,或扩容 PVC。
- ✅ 正常:
apps/ghost-content-pvc(2%)apps/ghost-mysql-pvc(3%)infra/postgres-pvc(6%)- 其他卷均在安全范围内。
3.2 高可用检查 (HA Check)
- 提示: 以下应用使用单副本
longhorn(非 HA),生产环境建议迁移至 HA:ghost-content-pvcghost-mysql-pvcghost-pvcnocodb-pvcnpm-data-pvcnpm-letsencrypt-pvc
3.3 传统文件系统 (Filesystem)
- 扫描
infra,npm,apps命名空间:未发现逻辑挂载点占用超过 80% 的情况。
4. 关键行动项 (Action Items)
- NPM 存储: 清理
npm-data-pvc的 Longhorn 快照或规划扩容。 - 修复 Pod: 检查
infra/postgres-backup镜像地址。 - 检查脚本:
kube-system/master-disk-check持续崩溃,需排查。