Files
lijiaoqiao/docs/subapi_expert_review_wargame_plan_v1_2026-03-17.md
2026-03-26 16:04:46 +08:00

8.0 KiB
Raw Blame History

Subapi 集成专家审核与博弈机制v1

  • 版本v1.0
  • 日期2026-03-17
  • 适用范围S1-S2集成 subapi + 逐步替换 + 企业级商用达标)
  • 关联文档:
    • llm_gateway_subapi_evolution_plan_v2_2026-03-17.md
    • router_core_takeover_execution_plan_v3_2026-03-17.md
    • subapi_integration_compat_security_reliability_design_v1_2026-03-17.md
    • subapi_integration_risk_controls_execution_tasks_v1_2026-03-17.md

1. 机制目标

  1. 在实施前对架构、兼容、安全、可靠性和商业可运营性做“全面独立审查”。
  2. 通过“对抗式博弈Red vs Blue”提前暴露盲点而不是上线后被事故教育。
  3. 形成可执行的 GO / CONDITIONAL GO / NO-GO 决策与整改清单。

2. 专家组成(建议 9-11 人)

2.1 内部专家(必选)

  1. 架构负责人Router Core 负责人)。
  2. 平台工程负责人CI/CD、发布与配置
  3. SRE 负责人(稳定性与故障恢复)。
  4. 安全负责人(应用安全 + 云安全)。
  5. 计费/财务数据负责人(对账与幂等)。
  6. 合规/法务接口人ToS、审计与数据合规
  7. 产品负责人(商用目标与边界)。
  8. 测试负责人(兼容回归与质量门禁)。

2.2 外部专家(建议)

  1. LLM 网关实战专家(有多供应商网关生产经验)。
  2. 攻防专家API 安全、SSRF、密钥泄漏与供应链风险
  3. 高并发系统专家(流式、重试、背压与故障隔离)。
  4. 可选:企业采购/交付顾问SLA、审计、交付可行性
  5. 核心用户代表(迁移试点客户,验证真实可用性)。
  6. 重构项目专家(大规模替换路径与技术债治理)。

2.3 回避与独立性规则

  1. 同一模块负责人不能单独裁定自己模块通过。
  2. 安全与法务拥有一票否决权P0 风险未关闭时)。
  3. 所有评审结论必须记录反对意见,不允许“口头通过”。

3. 博弈规则(防止形式主义评审)

3.1 Red Team vs Blue Team

  1. Blue Team提出当前方案“为何可行”。
  2. Red Team站在“攻击者 + 故障 + 合规审计 + 客户投诉”视角拆解方案。
  3. 每轮必须回答三个问题:
  • 这个设计最先会在哪个条件下失败?
  • 失败后会造成什么业务损失?
  • 30 分钟内如何止血并可审计复盘?

3.2 强制替代方案对比

每个关键决策至少对比 2 个方案(例如: subapi 外部模块化 vs 深度 fork),并给出:

  1. 复杂度成本。
  2. 失败半径。
  3. 回滚难度。
  4. 团队运维负担。

3.3 预演失败Pre-mortem

假设“2026-06-30 项目失败”,倒推失败原因并映射到当前行动项:

  1. 兼容回归导致客户 SDK 大面积失败。
  2. 账务冲突引发客户争议与财务风险。
  3. 安全配置疏漏导致 SSRF/密钥风险事件。
  4. 运维流程复杂导致故障恢复超时。

4. 审核维度与评分模型

4.1 评分维度100 分制)

维度 权重 核心问题
兼容性 25 协议、错误语义、流式边界是否稳定
安全性 25 SSRF、鉴权、密钥、供应链与审计是否可控
可靠性 20 故障隔离、熔断、回滚、恢复时间是否达标
运维简化 15 是否可标准化操作,是否减少人肉介入
账务正确性 10 幂等、对账、冲突告警是否闭环
合规可审计 5 ToS、审计链、证据导出是否完整

4.2 通过门槛

  1. 总分 >= 85。
  2. 任一维度不得低于 70。
  3. 安全/合规存在 P0 未闭环:直接 NO-GO。

5. 四轮审核流程(建议)

Round-1架构与替换路径审核2026-03-19

  1. 输入v2/v3 规划文档、替换路径图、接口边界。
  2. 重点:是否能从“集成”平滑走到“替换”,且不锁死在 subapi。
  3. 输出:架构问题清单(含优先级与 owner
  4. 必邀角色:架构负责人、重构项目专家、网关专家、核心用户代表。

Round-2兼容与计费一致性审核2026-03-22

  1. 输入Connector 契约、接管率 SQL、验收用例。
  2. 重点:协议兼容、错误归一、流式 no-replay、幂等扣费。
  3. 输出:兼容差异矩阵 + 账务风险清单。
  4. 必邀角色:测试专家、网关专家、计费负责人、核心用户代表。

Round-3安全与合规攻防审核2026-03-25

  1. 输入配置硬化基线、认证链路、ToS 风险台账。
  2. 重点query key、SSRF、出网策略、凭证安全、审计可追溯。
  3. 输出安全整改单P0/P1/P2+ 合规结论。
  4. 必邀角色:安全负责人、测试专家、法务接口人、安全攻防专家。

Round-4可靠性与运维演练审核2026-03-29

  1. 输入告警看板、Runbook、回滚脚本。
  2. 重点升级失败自动回退、30 分钟恢复、值班可执行性。
  3. 输出:演练报告 + GO/CONDITIONAL GO/NO-GO 决议。
  4. 必邀角色SRE、测试专家、产品负责人、核心用户代表。

6. 决策与治理机制

6.1 决策类型

  1. GO:可按计划推进。
  2. CONDITIONAL GO:允许推进,但必须在明确日期前关闭指定问题。
  3. NO-GO:冻结升波,先整改后复审。

6.2 一票否决条件(任一满足)

  1. 存在未闭环安全 P0 风险。
  2. 存在账务正确性 P0 风险。
  3. 无法在 30 分钟内完成回滚恢复演练。
  4. 法务未给出 ToS 风险可接受结论。

6.3 争议升级路径

  1. 技术争议:架构负责人 + SRE + 安全三方联裁。
  2. 商业/合规争议:产品负责人 + 法务 + 管理层联裁。
  3. 所有联裁必须形成 ADRArchitecture Decision Record

7. 必备评审材料(会前 24h 发出)

  1. 架构图与替换路线图(现状/目标/过渡)。
  2. 接口契约与兼容差异报告。
  3. 风险清单(含 P0/P1/P2、状态、owner、截止日期
  4. 近两周指标快照P95、5xx、接管率、账务冲突率
  5. 上次整改项关闭证据。

8. 评审输出模板(必须留档)

  1. 评分表(总分 + 分维度评分)。
  2. 问题清单(编号、等级、负责人、截止日期)。
  3. 决议结果GO/CONDITIONAL GO/NO-GO
  4. 风险接受记录(谁批准、基于什么证据)。

9. 与两周任务单的绑定方式

  1. 每轮专家评审都要映射到任务单任务 IDCOMP/SEC/REL/EXP
  2. 若评审新增问题,必须生成新任务 ID 并进入 daily gate。
  3. Round-4 决议是两周验收2026-03-31的前置条件。
  4. 三角色联合复审(EXP-007)是 EXP-006 最终决议前置条件之一。

10. 立即可执行动作(本周)

  1. 确认专家名单与角色映射(内部 + 外部)。
  2. 发布 Round-1 邀请与会前材料清单。
  3. 指定评审秘书,负责记录与问题跟踪。
  4. 将评审结论同步到风险任务单与周报。

11. 已准备好的执行模板(可直接使用)

  1. 专家名单与回避:review/experts_roster_2026-03-18.md
  2. 邮件邀请模板:review/templates/expert_invitation_email_templates_2026-03-17.md
  3. IM 邀请模板:review/templates/expert_im_message_templates_2026-03-17.md
  4. 外部专家保密与回避声明:review/templates/external_expert_nda_coi_template_2026-03-17.md
  5. 评分表模板:review/templates/expert_review_scorecard_2026-03-17.md
  6. 会议纪要模板:review/templates/expert_review_minutes_template_2026-03-17.md
  7. 问题台账模板:review/templates/expert_issue_register_template_2026-03-17.md
  8. 邀请发送跟踪台账:review/invitation_dispatch_tracker_2026-03-17.md
  9. 邀请发出前检查单:review/dispatch_ready_checklist_2026-03-17.md

12. 三角色联合评审输入(新增)

为强化“用户可接受性 + 质量阻断 + 网关可替换性”的联合校验,新增:

  1. subapi_role_based_review_wargame_optimization_v1_2026-03-18.md
    • 用户代表、测试专家、网关专家三角色的 Red/Blue 博弈结论
    • 新增任务 UXR/TST/GAT/EXP-007 映射
    • 作为 Round-2 与 Round-4 的强制预读材料