AI-Ops 智能运维系统 — 详细实施计划
版本:v1.0
生成日期:2026-05-11
编制:小龙(统筹)
基准:汇总审核报告与改进任务清单
一、实施总览
| 项目 |
内容 |
| 总任务数 |
48 项(P0: 16, P1: 18, P2: 14) |
| 总预估工时 |
24 人天(含 20% 联调缓冲) |
| 建议人员配置 |
PM 0.5F + TechLead 0.5F + QA 0.3F + Security 0.2F |
| 总周期 |
2~3 周(并行执行时) |
| 进入开发门禁 |
所有 P0 闭环 + PM/TechLead/QA 三方复审通过 |
二、时间线
三、Phase 0 — 文档修复与对齐(Week 1,16 项,8 人天)
目标:消除所有 P0 问题,确保文档间一致性。本 Phase 是进入开发的绝对前提。
3.1 接口对齐(TechLead 主导)
| 任务 ID |
任务名称 |
责任人 |
工时 |
产出物 |
依赖 |
验收标准 |
| D0-01 |
召开接口对齐会 |
TechLead |
0.5d |
docs/INTEGRATION_CONTRACT.md |
无 |
HLD/INTERFACE/DEPLOYMENT 三份文档无接口冲突 |
| D0-02 |
补齐或删除 ER 图中 4 张缺失表 |
TechLead |
0.5d |
HLD §4.2 更新 + migrations/000001_init_schema.up.sql 更新 |
D0-01 |
migration 与 ER 图一致,CI go test 通过 |
| D0-03 |
统一自愈动作命名 |
TechLead |
0.5d |
HLD §3.3 + INTERFACE §1.3 + 功能清单 3.1.2 同步更新 |
D0-01 |
全文档自愈动作命名一致,搜索无冲突 |
| D0-04 |
定义 IntegrationPlugin Go interface |
TechLead |
0.5d |
INTERFACE.md 新增 §X |
D0-01 |
interface 含 Name/Init/RegisterRoutes/HealthChecks/Shutdown 方法,有注释和示例 |
3.2 需求修正(PM 主导)
| 任务 ID |
任务名称 |
责任人 |
工时 |
产出物 |
依赖 |
验收标准 |
| R0-01 |
解决范围冲突:明确供应商智能切换定位 |
PM |
0.5d |
PRD §3 更新 + 功能清单 相关章节 |
无 |
PRD In/Out of Scope 与功能清单一致,无范围模糊区 |
| R0-02 |
重新估算工期 |
PM |
0.5d |
功能清单 “任务估算汇总” 更新 |
无 |
138 任务总估算在 30~40 人天,含缓冲 |
| R0-03 |
补充自愈动作“重启实例”实现任务 |
PM |
0.5d |
功能清单 3.1.2 更新 |
R0-01 |
功能清单包含重启实例任务,与 AC-6 对应 |
3.3 安全基线(Security 主导)
| 任务 ID |
任务名称 |
责任人 |
工时 |
产出物 |
依赖 |
验收标准 |
| S0-01 |
在威胁建模中增加 LLM 特有风险 |
Security |
0.5d |
HLD §10.1 更新 |
无 |
威胁建模覆盖 LLM Top 5 风险,每个有缓解策略 |
| S0-02 |
补充审计表防篡改触发器 |
Security |
0.5d |
migrations/000001_init_schema.up.sql 新增触发器 |
D0-02 |
审计表执行 UPDATE/DELETE 时报错,单测验证 |
| S0-03 |
明确审计写入与业务执行的事务顺序 |
Security |
0.5d |
HLD §3.3 更新 |
无 |
文档明确"先写审计再执行业务",含回滚机制 |
| S0-04 |
补充 WebSocket JWT 鉴权说明 |
Security |
0.5d |
INTERFACE §3.4 更新 |
无 |
WebSocket 接口含连接建立时的 token 校验流程 |
| S0-05 |
在 HLD 中增加参数化查询强制要求 |
Security |
0.5d |
HLD §4 更新 |
无 |
所有数据库交互层必须使用参数化/预编译查询 |
| S0-06 |
限制 /metrics 端点访问 |
Security |
0.5d |
INTERFACE §3.2 更新 |
无 |
/metrics 含内网 IP 限制或 API Key 鉴权说明 |
3.4 测试资产(QA 主导)
| 任务 ID |
任务名称 |
责任人 |
工时 |
产出物 |
依赖 |
验收标准 |
| T0-01 |
为 8 个缺失负向用例的 AC 补充负向用例 |
QA |
1d |
TEST_DESIGN.md + CASES.md 更新 |
无 |
每个 AC 至少 1 正向 + 1 负向,PRD AC 覆盖率 100% |
| T0-02 |
补充 F-05~F-08 异常流程用例 |
QA |
0.5d |
CASES.md 新增 TC-E5~E8 |
无 |
8 条异常流程全部有对应用例 |
| T0-03 |
创建 CI 配置文件 |
QA |
0.5d |
.github/workflows/ci.yml |
无 |
PR 提交时自动触发,覆盖率不达标时 exit 1 |
| T0-04 |
创建性能压测目录 |
QA |
0.5d |
test/perf/dashboard_k6.js + test/perf/drilldown_k6.js + test/perf/PERF_ENV.md |
无 |
k6 脚本可执行,含环境规格和 P99 计算方法 |
四、Phase 1 — 需求与产品级 P1 闭环(Week 1~2,9 项,4.5 人天)
目标:PRD 完善,AC 可测试,权限明确。
| 任务 ID |
任务名称 |
责任人 |
工时 |
产出物 |
依赖 |
验收标准 |
| R1-01 |
统一失败判定线 |
PM |
0.5d |
PRD §2 + §8.3 更新 |
R0-01 |
只有一条失败判定线,时间窗口、阈值统一 |
| R1-02 |
删除“不仅仅包括于” |
PM |
0.5d |
PRD §3 更新 |
无 |
In Scope 为封闭列表,无"等”和"包括不仅仅于" |
| R1-03 |
统一通知渠道列表 |
PM |
0.5d |
PRD AC-4 + 功能清单 更新 |
R0-01 |
通知渠道列表在所有文档中一致 |
| R1-04 |
AC-7 补充不可篡改技术实现定义 |
PM |
0.5d |
PRD AC-7 更新 |
S0-02 |
明确实现方式(触发器 + 只追加) |
| R1-05 |
AC-8 补充“有效”判定标准 |
PM |
0.5d |
PRD AC-8 更新 |
无 |
明确"有效"的定义(非空、JSON 可解析、Schema 匹配) |
| R1-06 |
AC-6 补充级联故障回退验收点 |
PM |
0.5d |
PRD AC-6 更新 |
D0-03 |
AC-6 含级联故障回退的验收条件 |
| R1-07 |
容量预测(AC-9)补充可测试标准 |
PM |
0.5d |
PRD AC-9 更新 |
无 |
含量化指标(如 MAPE<30%) |
| R1-08 |
补充 UI 最低兼容性要求 |
PM |
0.5d |
PRD 新增章节 |
无 |
明确浏览器、分辨率、移动端策略 |
| R1-09 |
细化角色权限矩阵到 API 级别 |
PM |
0.5d |
PRD AC-12 + 功能清单 G1 更新 |
D1-07 |
以表格形式列出各角色对关键 API 的 CRUD 权限 |
五、Phase 2 — 技术设计级 P1 闭环(Week 2,9 项,4.5 人天)
目标:HLD/DEPLOYMENT 完善,部署可执行,规则评估有扩展方案。
| 任务 ID |
任务名称 |
责任人 |
工时 |
产出物 |
依赖 |
验收标准 |
| D1-05 |
修正 DEPLOYMENT “主备”为 active-active |
TechLead |
0.5d |
DEPLOYMENT §1.1 更新 |
无 |
描述为多实例多活 + 负载均衡 |
| D1-06 |
分离 migration 执行从 Worker |
TechLead |
0.5d |
DEPLOYMENT §3.2 更新 |
D0-02 |
migration 由 init container 或 K8s Job 执行 |
| D1-07 |
补充 ai_ops_roles 表结构 |
TechLead |
0.5d |
HLD §8.1 + migration 更新 |
D0-02 |
表含 id/role_name/permissions/created_at,CI 通过 |
| D1-08 |
补充 ai_ops_snapshots 表结构 |
TechLead |
0.5d |
HLD §3.3 + migration 更新 |
D0-02 |
表含 id/healing_id/state_json/config_version/created_at |
| D1-09 |
完善告警聚合状态机 |
TechLead |
0.5d |
HLD §5.2 更新 |
无 |
含解除规则、子告警与父告警状态同步策略 |
| D1-10 |
补充规则评估分片策略 |
TechLead |
0.5d |
HLD §9.1/9.2 更新 |
无 |
含分片键、负载均衡方案、水平扩展策略 |
| D2-12 |
完善 metrics 分区表管理策略 |
TechLead |
0.5d |
migration + HLD 更新 |
D0-02 |
含按天分区或应用层定时任务说明 |
| D2-14 |
补充 Graceful Shutdown WebSocket 关闭策略 |
TechLead |
0.5d |
DEPLOYMENT §3.2 更新 |
S0-04 |
含 close frame + 5s ack 等待机制 |
| D2-15 |
重新校准时序存储容量估算 |
TechLead |
0.5d |
HLD §9.3 更新 |
无 |
参考 Prometheus 官方公式,给出保守估算 |
六、Phase 3 — 测试资产完善(Week 2~3,8 项,4 人天)
目标:测试用例完整,CI 可运行,混沌测试有设计,E2E 有场景。
| 任务 ID |
任务名称 |
责任人 |
工时 |
产出物 |
依赖 |
验收标准 |
| T1-01 |
建立覆盖率验证机制 |
QA |
0.5d |
scripts/check_coverage.sh + STRATEGY.md 更新 |
T0-03 |
CI 中自动解析 coverprofile,按模块阻断 |
| T1-02 |
设计 3 条混沌测试用例 |
QA |
0.5d |
TEST_DESIGN.md 新增混沌测试章节 |
T0-02 |
含 Given-When-Then,覆盖 Pod 杀死/Redis 分区/PG 切换 |
| T1-03 |
完善测试数据管理规范 |
QA |
0.5d |
STRATEGY.md 更新 + test/fixtures/ 目录结构文档 |
T0-03 |
含 SQL/JSON/Go seed 三种方式,含大数据生成脚本说明 |
| T1-04 |
为灰度门禁增加自动化判定脚本 |
QA |
0.5d |
scripts/gate_check.sh + TEST_DESIGN.md §5.2 更新 |
T0-03 |
脚本可自动采集覆盖率/沙盒验证/安全扫描结果 |
| T1-05 |
明确安全扫描工具与阈值 |
QA |
0.5d |
STRATEGY.md 更新 |
S0-01 |
明确工具(Trivy/Gosec)、漏洞等级定义、扫描时机 |
| T1-06 |
补充 E2E 详细场景设计 |
QA |
0.5d |
TEST_DESIGN.md + CASES.md 新增 E2E 章节 |
T0-01 |
含完整链路:指标异常→告警触发→通知发送→自愈执行→事件记录 |
| T2-01 |
统一用例编号风格 |
QA |
0.5d |
TEST_DESIGN.md + CASES.md 全文更新 |
T0-01 |
全部统一为 TC-{AC}-{seq} |
| T2-02 |
补充 Webhook 5xx 测试场景 |
QA |
0.5d |
CASES.md TC-E2 更新 |
T0-02 |
TC-E2 含 5xx 和 8xx 两种场景 |
七、Phase 4 — 安全与运营工具(Week 3,6 项,3 人天)
目标:威胁建模完善,安全门禁可执行,商业化闭环有 ROI。
| 任务 ID |
任务名称 |
责任人 |
工时 |
产出物 |
依赖 |
验收标准 |
| S1-01 |
补充敏感字段脱敏具体实现 |
Security |
0.5d |
HLD §8 更新 |
S0-05 |
含密码替换策略、加密算法、脱敏测试用例 |
| S1-02 |
明确自愈引擎权限边界 |
Security |
0.5d |
PRD AC-6 + HLD §3.3 更新 |
D0-03 |
含重启关键服务的白名单/黑名单机制 |
| R2-01 |
补充 ROI 量化模型 |
PM |
0.5d |
PRD 新增章节 |
R0-02 |
含当前运维成本、目标节省金额、回收周期 |
| R2-02 |
补充发布策略量化门控标准 |
PM |
0.5d |
PRD §8 更新 |
R1-01 |
含噪声率<10%、通知成功率>95% 等可量化条件 |
| R2-03 |
补充审计日志存储成本评估 |
PM |
0.5d |
PRD + HLD §9.3 更新 |
D2-15 |
含压缩率、归档策略、存储成本上限 |
| D2-11 |
优化错误码排版 |
TechLead |
0.5d |
INTERFACE §3.3 更新 |
D0-01 |
错误码分段排版,每个含注释说明 |
八、关键路径与产出物清单
文档级产出物
| 文件路径 |
说明 |
贡献者 |
docs/INTEGRATION_CONTRACT.md |
外部集成契约唯一信源源 |
TechLead |
prd/PRD.md |
主需求文档(更新后) |
PM |
specs/功能清单.md |
功能清单(更新后) |
PM |
tech/HLD.md |
高层设计(更新后) |
TechLead |
tech/INTERFACE.md |
接口设计(更新后) |
TechLead |
tech/DEPLOYMENT.md |
部署设计(更新后) |
TechLead |
tech/TEST_DESIGN.md |
测试设计(更新后) |
QA |
test/CASES.md |
测试用例(更新后) |
QA |
test/STRATEGY.md |
测试策略(更新后) |
QA |
代码级产出物
| 文件路径 |
说明 |
贡献者 |
.github/workflows/ci.yml |
CI Pipeline(覆盖率阻断、测试执行、失败通知) |
QA |
scripts/check_coverage.sh |
覆盖率解析脚本 |
QA |
scripts/gate_check.sh |
灰度门禁自动化判定脚本 |
QA |
test/perf/dashboard_k6.js |
看板首页性能压测脚本 |
QA |
test/perf/drilldown_k6.js |
下钻性能压测脚本 |
QA |
test/perf/PERF_ENV.md |
性能压测环境规格 |
QA |
test/fixtures/ 目录结构文档 |
测试数据管理规范 |
QA |
tech/migrations/000001_init_schema.up.sql |
数据库 schema(更新后) |
TechLead |
docs/汇总审核报告与改进任务清单.md |
汇总审核报告 |
小龙 |
docs/IMPLEMENTATION_PLAN.md |
本文档 |
小龙 |
九、门禁与复审机制
| 门禁点 |
条件 |
复审者 |
| Phase 0 完成 |
所有 16 项 P0 任务完成,文档间一致性通过自动化检查 |
小龙 + TechLead |
| Phase 1 完成 |
所有 9 项需求 P1 任务完成,PRD 可转测试用例 |
PM + QA |
| Phase 2 完成 |
所有 9 项技术 P1 任务完成,migration 可执行 |
TechLead |
| Phase 3 完成 |
所有 8 项测试任务完成,CI 可运行 |
QA |
| Phase 4 完成 |
所有 6 项安全/运营任务完成 |
Security + PM |
| 进入开发门禁 |
所有 Phase 完成,四方(PM/TechLead/QA/Security)复审通过 |
小龙 |
十、风险与应对
| 风险 |
概率 |
影响 |
应对策略 |
| 接口对齐会迟到或不能达成一致 |
中 |
高 |
由小龙主持,PM/TechLead 双方必须参与,不达成一致不开会 |
| 工期估算仍被认为过高 |
低 |
中 |
预留 20% 联调缓冲 + 15% 风险缓冲,每周回顾 |
| QA 资产补齐耗时超预期 |
中 |
中 |
优先完成 T0-01~T0-04(P0),P1/P2 可延后到开发期补充 |
| Security 审查引发范围变更 |
低 |
高 |
S0-01 限于威胁建模文档更新,不扩展为新功能需求 |