脸书大规模服务中断事件调查:BGP与DNS服务器离线所致
脸书大规模服务中断事件调查:BGP与DNS服务器离线所致 简单报
BGP是“边界网关协议”的缩写,作为一套允许在互联网上的自治系统(AS)之间交换路由信息的机制,其在刚刚过去的脸书(Facebook)大规模服务中断事件中也扮演了重要的角色。Cloudflare指出,BGP使得互联网上工作的大型路由器能够拥有庞大的、不断更新的可能路由列表,从而将各个挽留过数据包送达最终的目的地。
脸书大规模服务中断事件调查:BGP与DNS服务器离线所致
(图自:Cloudflare)
若欠缺 BGP,互联网路由器将不知道如何正确工作中。终究 Internet 的原意,便是在 BGP 关联下、一个套着另一个的网络。
以社交媒体大佬 脸书(Facebook) 为例子,BGP 使之可以向组成互联网的其他网络通告本身的存有。
BGP / SAN 示意图
殊不知在周一的服务大终断事情中,脸书(Facebook) 却乌龙茶似地沒有宣布本身的存有,最后造成互联网服务服务提供商(ISP)和其他网络没法与之创建恰当的联接。
TheVerge 编写 Alex Castro 强调,BGP 又称之为互联网上的“邮政局系统软件”或“空中交通管制员”,但他更喜欢将之当做一幅大伙参加制做和升级的地形图,以正确引导客户恰当浏览输油管或twiter等网络服务。
Tom Strickx 与 Celso Martinho 在 Cloudflare 栏目文章内容中写到:每一个独立的网络,都是有一个称之为 ASN 的自治系统序号,而自治系统(AS)是具备统一內部路由对策的单独网络。
AS 可以造成作为前缀(例如其操纵的一组 IP 详细地址)并传送,以让互联网了解如何把信息内容送到特殊的 IP 详细地址组,而 Cloudflare 的 ASN 序号便是 AS13335 。
随后每一个 ASN 都必须依靠 BGP 向互联网通告其作为前缀路由,不然将不可告人该怎样与之获得联接、及其在哪儿寻找他们。
在 UTC 协调世界时的 16:58,Cloudflare 逐渐留意到 脸书(Facebook) 已终止发布其 DNS 作为前缀路由。在最不明显的情形下,这也代表着该公司的解析域名服务(DNS)已不能用。
因为 Cloudflare 的 1.1.1.1 DNS 在线解析没法再回应了解 脸书(Facebook).com 或 instagram.com 等网络服务的 IP 地址查询,规模性服务终断也逐渐越来越没法防止。
此外,虽然仍有其他 脸书(Facebook) IP 详细地址在被路由,但他们能够具有的作用也非常比较有限 —— 终究只需 DNS 服务躺下来了,与 脸书(Facebook) 有关的服务也越来越事实上无法打开了。
Cloudflare 强调,其会追踪全世界网络中留意到的全部 BGP 升级与公示。殊不知 UTC 時间 15:40 上下,Cloudflare 留意到了 脸书(Facebook) 的路由变动高峰期,不便在这个时候逐渐集中化暴发。
说到这,此次 脸书(Facebook) 规模性服务终断的来龙去脉已基本上疏远进行。最先是路由被撤销,然后 脸书(Facebook) 的 DNS 服务器线下。
难题产生一分钟后,Cloudflare 技术工程师们逐渐思索为什么 1.1.1.1 没法分析 脸书(Facebook).com、乃至一度猜疑是别人企业的操作系统发生了难题。
视频截取(来源于:USENIX | YouTube)
最终,Santosh Janardhan 在 2021 年 10 月 4 日(本周一)升级的一篇文章中强调,该难题是因为 脸书(Facebook) 在融洽其大数据中心中间网络总流量的技术骨干路由器的配备变动所引起的。
NSDI 21 Running BGP in Data Centers at Scale - USENIX(via)
有兴趣的好朋友,可收看 NSDI '21 学术会上的这段视频,来提升针对界限网关ip协议书(BGP)的深层了解。
浏览:
阿里云服务器 - 最大1888元通用性抵用券马上可以用