故障处理流程

故障处理流程

# 故障处理流程

# 前置报警

  • 服务端API日志调用,超出阈值进行预警
  • 前端UI自动化监控预警
  • 前端监控SDK日志,超出阈值进行预警
  • TL判断预警信息,是否为线上故障
  • 各个业务线运营群消息通知问题

# 确认故障

  • 确定为线上故障后,由接收到故障信息的同学,迅速通知TL
  • TL拉故障处理小群,包括相关的产品、UI、开发、测试同学,并制定紧急处理措施。
    • 系分评估的时候,如果判断为可直接回滚,则在部署平台或小程序后台直接操作,回滚到上个版本。
    • 如果不能直接回滚,则里面指定最快止损的修复策略。
    • 完成上述2步后,再修复原有故障,紧急发布上线。

# 故障复盘

# 影响面评估

  • 影响用户量
  • 影响时长
  • 资产损失
  • 其他损失

# 事故分析

  • 产生原因
  • 吸取教训
  • 后续改进措施
  • 事故责任人
  • 事故等级评定

# 复盘结束

  • 记录复盘过程
  • 项目定期跟进事故的改进时间节点和结果
  • 看情况,决定是否需要在周会复盘,或邮件抄送相关人员