集群报告
集群巡检日报 | Cluster Audit Daily Report
日期 / Date: 2026-02-13 (晚间巡检 / PM Audit) 巡检人 / Auditor: Antigravity
1. 核心发现 / Key Observations
- 集群概况: 所有核心服务运行正常,无 Critical 级别警报。
- 状态翻转:
apps/ghost状态由昨日的Pending转为Running(100% 可用)。apps/ghost-mysql状态由昨日的Pending转为Running(100% 可用)。
- 资源预警:
worker-02仍承担较多业务负载(Crawler + Postgres-Dev),建议后续将postgres-dev迁移至worker-03以平衡 IO 压力。
2. 存储审计报告 / Storage Audit (Longhorn)
| Component | Namespace | PVC Usage | Condition | Risk Assessment |
|---|---|---|---|---|
| Ghost Content | apps |
1% | ✅ Healthy | 安全 (已配置 Secret) |
| Ghost DB | apps |
5% | ✅ Healthy | 安全 (已配置 Secret) |
| NocoDB | infra |
1% | ✅ Healthy | 安全 |
| MinIO | infra |
38% | ⚠️ Watch | 需关注增长趋势 |
| Kopia Repo | infra |
46% | ⚠️ Watch | 接近中位数水位 |
3. 异常 Pods 监控 / Abnormal Pods Monitoring
| Namespace | Pod Name | Status | Error Detail | Action Plan |
|---|---|---|---|---|
kube-system |
master-disk-check | 🔴 CrashLoopBackOff | 持续崩溃 (584 restarts) | 建议移除该 CronJob |
infra |
postgres-backup | 🔴 ImagePullBackOff | 镜像拉取失败 | 检查 CI/CD 镜像构建 |
default |
w03-final | 🔴 Error | 僵尸 Pod | 建议手动清理 |
4. 推荐行动 / Actionable Insights
- 清理: 执行
kubectl delete pod w03-final和kubectl delete cronjob master-disk-check -n kube-system(需用户确认)。 - 监控: 持续观察
MinIO和Kopia的存储增长曲线。 - 优化: 计划将
postgres-dev从worker-02驱逐,减轻该节点的 IO 竞争。
Antigravity 自动生成 | Auto-generated by Antigravity