Cloudflare全球性宕机：官方报导揭露11月18日故障详情

全球数百万个网站与服务于2025 年11 月18 日UTC 时间上午06:58 出现连线异常，主因来自网络基础设施供应商Cloudflare 的内部错误。该公司于当天稍晚发布完整事故说明，针对这起技术性故障如何发生、如何处理及未来的预防措施，做出透明交代。

问题爆发：全球多地服务瘫痪

Cloudflare 在11 月18 日的故障发生于UTC 时间早上06:58（北京时间约下午2 点），许多使用Cloudflare CDN 与DNS 服务的网站，包括大型商业平台、新闻媒体与Web 应用，无法正常访问。这场中断持续了将近40 分钟，造成部分地区的网站完全无法载入，使用者也无法顺利透过API 与后端伺服器互动。

公司指出，此次事件属于网络层级的中断，影响涵盖其全球服务基础设施，而非单一资料中心或地区问题。

问题根源：BGP 组态错误酿祸

Cloudflare 进一步解释，本次中断起因于Border Gateway Protocol（BGP）设定变更错误。 BGP 是控制网际网络流量的核心协定之一，用来让全球网络知道如何路由到某个目的地。

原始目的是为了更新内部的路由广播政策，提升基础架构效率，却因手动推送错误设定，使得某些Cloudflare IP 前缀无法再由其他ISP 透过BGP 存取，等于在网际网络上「消失」了这些服务的路由路径。

这项错误在内部自动化部署工具中并未被即时侦测，因此在影响浮现前已广泛推送到多个地区。

启动紧急回复：快速撤销错误设定

Cloudflare 工程团队于事件发生后数分钟内侦测异常，并紧急启动回复程序。他们于UTC 07:15 左右开始撤回错误的BGP 政策设定，并在UTC 07:28 完成恢复，大部分服务也于当时恢复正常运作。

总体而言，此次中断持续了约30 至40 分钟，根据Cloudflare 提供的时间轴，服务在UTC 07:28 完全恢复。

为何自动化与保护机制未能阻止问题？

Cloudflare 坦言，此次错误揭示其内部部署流程尚有改进空间。原先的自动化流程设有「安全机制」，能阻止错误的BGP 广播，但此次更新是在较底层的系统设定中推行，未纳入该保护范围。

此外，这项变更原应仅作用于特定实验性网段，却意外影响到主要的生产环境范围。他们已经着手修正部署系统的范围定义，并强化对错误政策的自动侦测能力。

Cloudflare 承诺未来改进

Cloudflare 表示，将采取以下措施避免类似事故再次发生：

加强对BGP 相关设定的验证机制，避免非预期路由广播；
明确区分测试与生产环境设定权限；
增加自动化警示系统，能于秒级反应异常网络流量；
强化内部变更审核与手动操作流程的监控。

公司也强调，他们会持续提升透明度，未来若有任何故障，也会迅速公开相关资讯，维持用户信任。

网络巨头的责任与挑战

Cloudflare 作为全球规模最大的网络基础设施供应商之一，服务范围涵盖CDN、DNS、网络安全与DDoS 防护等关键网络元件。一次BGP 设定错误，即可能造成全球性的「数位断电」。这次事件虽迅速处理，仍凸显网际网络基础建设高度集中化带来的风险与挑战。

本文链接地址：https://www.wwsww.cn/hqfx/35431.html
郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。