
全球数百万个网站与服务于2025 年11 月18 日UTC 时间上午06:58 出现连线异常,主因来自网络基础设施供应商Cloudflare 的内部错误。该公司于当天稍晚发布完整事故说明,针对这起技术性故障如何发生、如何处理及未来的预防措施,做出透明交代。
问题爆发:全球多地服务瘫痪
Cloudflare 在11 月18 日的故障发生于UTC 时间早上06:58(北京时间约下午2 点),许多使用Cloudflare CDN 与DNS 服务的网站,包括大型商业平台、新闻媒体与Web 应用,无法正常访问。这场中断持续了将近40 分钟,造成部分地区的网站完全无法载入,使用者也无法顺利透过API 与后端伺服器互动。
公司指出,此次事件属于网络层级的中断,影响涵盖其全球服务基础设施,而非单一资料中心或地区问题。
问题根源:BGP 组态错误酿祸
Cloudflare 进一步解释,本次中断起因于Border Gateway Protocol(BGP)设定变更错误。 BGP 是控制网际网络流量的核心协定之一,用来让全球网络知道如何路由到某个目的地。
原始目的是为了更新内部的路由广播政策,提升基础架构效率,却因手动推送错误设定,使得某些Cloudflare IP 前缀无法再由其他ISP 透过BGP 存取,等于在网际网络上「消失」了这些服务的路由路径。
这项错误在内部自动化部署工具中并未被即时侦测,因此在影响浮现前已广泛推送到多个地区。
启动紧急回复:快速撤销错误设定
Cloudflare 工程团队于事件发生后数分钟内侦测异常,并紧急启动回复程序。他们于UTC 07:15 左右开始撤回错误的BGP 政策设定,并在UTC 07:28 完成恢复,大部分服务也于当时恢复正常运作。
总体而言,此次中断持续了约30 至40 分钟,根据Cloudflare 提供的时间轴,服务在UTC 07:28 完全恢复。
为何自动化与保护机制未能阻止问题?
Cloudflare 坦言,此次错误揭示其内部部署流程尚有改进空间。原先的自动化流程设有「安全机制」,能阻止错误的BGP 广播,但此次更新是在较底层的系统设定中推行,未纳入该保护范围。
此外,这项变更原应仅作用于特定实验性网段,却意外影响到主要的生产环境范围。他们已经着手修正部署系统的范围定义,并强化对错误政策的自动侦测能力。
Cloudflare 承诺未来改进
Cloudflare 表示,将采取以下措施避免类似事故再次发生:
-
加强对BGP 相关设定的验证机制,避免非预期路由广播;
-
明确区分测试与生产环境设定权限;
-
增加自动化警示系统,能于秒级反应异常网络流量;
-
强化内部变更审核与手动操作流程的监控。
公司也强调,他们会持续提升透明度,未来若有任何故障,也会迅速公开相关资讯,维持用户信任。
网络巨头的责任与挑战
Cloudflare 作为全球规模最大的网络基础设施供应商之一,服务范围涵盖CDN、DNS、网络安全与DDoS 防护等关键网络元件。一次BGP 设定错误,即可能造成全球性的「数位断电」。这次事件虽迅速处理,仍凸显网际网络基础建设高度集中化带来的风险与挑战。
本文链接地址:https://www.wwsww.cn/hqfx/35431.html
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。



