在6月27日下午,很多阿里云用户反映阿里云出现了故障,其中出现故障的部分是部分管控功能,及MQ、NAS、OSS等产品,那么这个问题解决了吗?我们一起来看看。
随后阿里云发表了一篇故障说明,说明中阿里云表示:对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。
6月27日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题,引发了大量吐槽。故障于北京时间2018年6月27日16: 21左右开始,16: 50分开始陆续恢复。
经过紧急技术复盘,故障原因如下:
当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug,错误代码禁用了部分内部IP,导致部分产品访问链路不通。后续人工介入后,工程师团队快速定位问题进行了恢复。
受影响方位包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。