集群巡检日报 | Cluster Audit Daily Report

日期 / Date: 2026-02-13 (晚间巡检 / PM Audit) 巡检人 / Auditor: Antigravity


1. 核心发现 / Key Observations

  • 集群概况: 所有核心服务运行正常,无 Critical 级别警报。
  • 状态翻转:
    • apps/ghost 状态由昨日的 Pending 转为 Running (100% 可用)。
    • apps/ghost-mysql 状态由昨日的 Pending 转为 Running (100% 可用)。
  • 资源预警: worker-02 仍承担较多业务负载(Crawler + Postgres-Dev),建议后续将 postgres-dev 迁移至 worker-03 以平衡 IO 压力。

2. 存储审计报告 / Storage Audit (Longhorn)

Component Namespace PVC Usage Condition Risk Assessment
Ghost Content apps 1% ✅ Healthy 安全 (已配置 Secret)
Ghost DB apps 5% ✅ Healthy 安全 (已配置 Secret)
NocoDB infra 1% ✅ Healthy 安全
MinIO infra 38% ⚠️ Watch 需关注增长趋势
Kopia Repo infra 46% ⚠️ Watch 接近中位数水位

3. 异常 Pods 监控 / Abnormal Pods Monitoring

Namespace Pod Name Status Error Detail Action Plan
kube-system master-disk-check 🔴 CrashLoopBackOff 持续崩溃 (584 restarts) 建议移除该 CronJob
infra postgres-backup 🔴 ImagePullBackOff 镜像拉取失败 检查 CI/CD 镜像构建
default w03-final 🔴 Error 僵尸 Pod 建议手动清理

4. 推荐行动 / Actionable Insights

  1. 清理: 执行 kubectl delete pod w03-finalkubectl delete cronjob master-disk-check -n kube-system (需用户确认)。
  2. 监控: 持续观察 MinIOKopia 的存储增长曲线。
  3. 优化: 计划将 postgres-devworker-02 驱逐,减轻该节点的 IO 竞争。

Antigravity 自动生成 | Auto-generated by Antigravity

Share this article
The link has been copied!