Files
ai-customer-service/prd/SERVICE_SLA.md

92 lines
2.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 客服 SLA 与升级响应规范
> 版本v1.1
> 状态:已更新为灰度门禁口径
> 关联:`docs/MONITORING_ALERTING.md`、`docs/GRAY_DASHBOARD_MINIMUM.md`、`prd/GRAY_RELEASE_ROLLBACK_RUNBOOK.md`
---
## 1. Phase 1 灰度期 SLA
灰度期的 SLA 不是最终商业承诺,而是**是否继续放量**的门槛。
### 1.1 核心灰度门槛
| 指标 | 目标值 | 用途 |
|------|--------|------|
| Webhook 成功率 | `>= 99%`5 分钟窗口) | 是否允许继续放量 |
| Webhook 5xx | `< 1%`5 分钟窗口) | 超阈值即停止放量 |
| Readiness 可用率 | `>= 99.5%` | 实例是否稳定接流量 |
| PostgreSQL 依赖异常 | `= 0`5 分钟窗口) | 关键依赖门禁 |
| Audit 写入失败数 | `= 0`5 分钟窗口) | 合规/追溯门禁 |
| Handoff 比率 | `<= 25%` 或不高于基线 `2x` | 判断机器人能力是否异常退化 |
| 工单接单时间 P95 | `<= 30 分钟` | 人工链路可承载性 |
| 工单解决时间 P95 | `<= 4 小时` | 最小服务能力 |
### 1.2 灰度期分级
| 级别 | 定义 | 响应时间 | 恢复目标 |
|------|------|----------|----------|
| P0 | 数据库不可用、全量 5xx、审计主链断裂 | 5 分钟 | 30 分钟内恢复或回滚 |
| P1 | 5xx > 1%、连续 readiness down、ticket 主链异常 | 15 分钟 | 1 小时内恢复或回滚 |
| P2 | reject 异常升高、handoff 比率异常、重启抖动 | 30 分钟 | 4 小时内恢复 |
---
## 2. 升级与通知规则
| 触发条件 | 等级 | 通知 |
|----------|------|------|
| Webhook 5xx `> 5%` 持续 5 分钟 | P0 | 电话 + 飞书,立即回滚 |
| PostgreSQL 连接异常导致 `ready` 失败 | P0 | 电话 + 飞书,立即冻结放量 |
| Audit 写入失败数 `> 0` 持续 5 分钟 | P1 | 飞书,立即停止继续放量 |
| Handoff 比率 `> 25%` 或高于基线 `2x` | P2 | 飞书,需人工研判 |
| 单实例 10 分钟内重启 `> 2` 次 | P2 | 飞书,冻结当前档位 |
---
## 3. 当前实现与 SLA 的关系
### 3.1 已有支撑
- `live` / `ready` 探针已具备
- PostgreSQL readiness 检查已接入
- webhook HMAC / timestamp / dedup 已具备
- ticket / audit / dedup 本地/容器化 Gate B 已证据化通过
### 3.2 仍待落地
- 真实共享预生产环境上的统一指标采集
- 告警平台接入
- 灰度阶段的自动统计和 dashboard
因此当前 SLA 结论应当理解为:
> **门槛已定义,但真实共享预生产和灰度环境的观测接线仍需补齐。**
---
## 4. 与放量门禁的绑定
进入下一灰度档位前,必须满足:
1. 最近一个观察窗口 `webhook 5xx <= 0.5%`
2. `audit 写入失败数 = 0`
3. `postgres 连接异常 = 0`
4. 无连续 `readiness down`
5. handoff / ticket 指标没有异常飙升
任一条件不满足:
- 不允许继续放量
- 必要时触发回滚
---
## 5. 当前版本状态
- 文档版本:`v1.1`
- 本次更新日期:`2026-05-04`
- 下次审查:灰度第一轮结束后