流浪小猫的博客

在微软 on call 的经历

· xcatliu

之前一直听说微软、亚马逊等企业需要 on call,但是不清楚具体要做什么。

上周第一次在微软 on call,写一点感受。

On call 是什么§

就是需要保持电话畅通,随时都可能接到电话说哪个服务挂了,哪个测试失败了等等。

然后需要具体问题具体分析,直到问题缓解或者解决了为止。

On call 中文一般称为值班。

为什么要 on call§

为了保证一旦服务出现问题,能够第一时间解决,不至于照成严重的影响。

什么时候需要 on call§

全球性的企业这时就体现出了它的优势了,不需要 24 小时 on call,而是根据时区,一般只会在工作时间内 on call。

到了节假日则是每人一天轮流。

具体需要做什么§

这里不能说太详细了,大概就是这样:

  1. 保持电话畅通,随时接听电话
  2. 接到电话后确认问题
  3. 调查问题严重性,会不会影响线上产品,如果会影响,转 4,否则转 5
  4. 尝试通过配置文件禁用相关功能,转 6
  5. 持续调查
  6. 确认问题是否减缓
  7. 通知相关人,协助一起解决问题
  8. 总结问题

每天会碰到几个问题呢§

看人品,少则没有,多则整天都需要处理。

其他感受§

值班的那几天可能是压力比较大,夜里没睡好觉。但事实上并没有很严重的问题出现。

也许是又一次进去了黑暗森林的状态吧。

另外,在美团也经历过 on call,不过只需要节假日值班(工作日每天都需要 24 小时在线,但是真正的问题并不多)。