感谢网友 华南吴彦祖 的线索投递!

11 月 28 日消息,昨日(11 月 27 日)9:16,阿里云部分地域云数据库控制台访问异常,北京、上海、杭州、深圳、青岛 、香港以及美东、美西地域受影响。

部分地域云数据库控制台访问异常,阿里云抢修并致歉-风君雪科技博客

昨日晚间,阿里云就云数据库控制台访问异常一事发布道歉声明,表示经过工程师紧急处理,访问异常问题已于当日 10:58 恢复。

您好!北京时间 2023 年 11 月 27 日 09:16 起,阿里云监控发现北京、上海、杭州、深圳、青岛 、香港以及美东、美西地域的数据库产品(RDS、PolarDB、Redis 等)的控制台和 OpenAPI 访问出现异常,实例运行不受影响。经过工程师紧急处理,访问异常问题已于当日 10:58 恢复。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。

部分地域云数据库控制台访问异常,阿里云抢修并致歉-风君雪科技博客

注意到,这已经是阿里云本月第二次控制台服务异常,首次异常是在双 11 结束的一天后(11 月 12 日),涉及到阿里云盘、淘宝、咸鱼、钉钉、语雀等等产品,持续时长约 3.5 小时

故障报告:

问题影响范围

  • OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。

  • 云产品控制台、管控 API 等功能受到影响

问题影响时间

北京时间 2023 年 11 月 12 日 17:39-19:20

问题概况

北京时间 2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务(AK)异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

处理过程

2023 年 11 月 12 日

  • 17:39 阿里云云产品控制台访问及管控 API 调用出现异常。

  • 17:50 工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。

  • 18:01 工程师定位到根因。

  • 18:07 开始执行恢复措施,包括修订白名单版本、重启 AK 服务。

  • 18:35 杭州等 Region 开始恢复正常。

  • 19:20 绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

问题原因

访问密钥服务(AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

改进措施

  • 增加 AK 服务白名单生成结果的校验及告警拦截能力。

  • 增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。

  • 增加 AK 服务白名单的快速恢复能力。

  • 加强云产品侧的联动恢复能力。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。