2025 年 2 月 6 日,Cloudflare 企图阻挠 R2 目标存储平台上的一个网络垂钓 URL,成果适得其反,引发了大范围中止,导致许多服务瘫痪了近一个小时。
Cloudflare R2 是一种类似于 Amazon S3 的目标存储服务,专为可扩展、耐久、低成本的数据存储而规划。它供给免费的数据检索、S3兼容、跨多个方位的数据仿制以及 Cloudflare 服务集成。
一名职工在回应关于 Cloudflare R2 平台上的网络垂钓 URL 的乱用陈述时,中止发生了。
但是,这名职工并没有阻拦那个特定的端点,而是误封闭了整个 R2 Gateway 服务。
Cloudflare 在过后剖析陈述中解释道:“在惯例的乱用弥补过程中,工作人员接到投诉后采纳举动,却无意中禁用了 R2 Gateway 服务,而不是禁用陈述的那个特定端点/存储桶。”
“这是多个体系等级操控失效和操作人员培训不到位所造成的,前者是最主要的要素。”
这起事情继续了 59 分钟,发生在 08 点 10 分到 09 点 09 分之间。除了影响 R2 目标存储自身,该事情还影响了以下服务:
(3)Cache Reserve(缓存保存):操作失利率 100%,导致源端恳求添加。
(4)Vectorize(向量化):查询失利率 75%,刺进、修正和删去操作失利率 100%。
(5)Log Delivery(日志交给)——推迟和数据丢掉:R2 相关的日志其数据丢掉率高达13.6%,非 R2 交给作业的数据丢掉率高达 4.5%。
也有一些遭到直接影响的服务遭受了部分失利,比方 Durable Objects(耐久目标),因为康复后的从头衔接,其过错率添加了 0.09%;比方 Cache Purge(缓存铲除),过错添加了 1.8%(HTTP 5xx)、推迟峰值添加了 10 倍;比方 Workers & Pages,布置失利率为 0.002%,仅影响正常运用 R2 绑定的项目。
Cloudflare 特别指出,人为过错和缺少安全办法(比方针对影响很大的操作的验证查看)是这次事情的主因。
这家互联网巨子现在已当即施行了修正机制,比方取消了在乱用检查界面中封闭体系的功用,以及在 Admin API 中设置约束,以避免内部帐户禁用服务。
将来会施行的其他办法包含改善帐户装备、施行更严厉的拜访操控以及针对高风险操作的两边批阅流程。
2024 年 11 月,Cloudflare 曾遇到了继续 3 个半小时的另一起严重停机,导致服务中 55% 的日志永久性丢掉。
那起事情是由 Cloudflare 的主动缓解体系呈现连锁反应式的毛病引起的,背面原因是将过错的装备推送到了该公司日志管道中的一个要害组件。