故障处理流程
故障处理流程
# 故障处理流程
# 前置报警
- 服务端API日志调用,超出阈值进行预警
- 前端UI自动化监控预警
- 前端监控SDK日志,超出阈值进行预警
- TL判断预警信息,是否为线上故障
- 各个业务线运营群消息通知问题
# 确认故障
- 确定为线上故障后,由接收到故障信息的同学,迅速通知TL
- TL拉故障处理小群,包括相关的产品、UI、开发、测试同学,并制定紧急处理措施。
- 系分评估的时候,如果判断为可直接回滚,则在部署平台或小程序后台直接操作,回滚到上个版本。
- 如果不能直接回滚,则里面指定最快止损的修复策略。
- 完成上述2步后,再修复原有故障,紧急发布上线。
# 故障复盘
# 影响面评估
- 影响用户量
- 影响时长
- 资产损失
- 其他损失
# 事故分析
- 产生原因
- 吸取教训
- 后续改进措施
- 事故责任人
- 事故等级评定
# 复盘结束
- 记录复盘过程
- 项目定期跟进事故的改进时间节点和结果
- 看情况,决定是否需要在周会复盘,或邮件抄送相关人员