互联网的脆弱性:Facebook最长宕机事故只因一个小错误

摘要:

北京时间3月15日消息,美国当地时间周三,全球最大社交网络Facebook及旗下多项服务出现技术故障,导致Facebook遭遇公司近期历史上最长宕机。在人们的生活越来越离不开互联网的情况下,这次宕机事故凸显出了互联网的脆弱性。

Facebook在周四表示,公司已经修复了一个技术故障。这个故障导致Facebook及旗下Instagram、WhatsApp以及Messenger应用出现长时间服务中断。

此次中断事故在部分Facebook服务上持续了近24个小时,成为Facebook近期历史上最长宕机事故。这次令人瞠目结舌的宕机事故在提醒着人们,即便是拥有最优秀计算机科学家、尖端技术的世界最强大互联网公司,也会受到人为失误的破坏。

最强大公司也躲不过人为失误

“所有大型互联网公司都建立了多条防线,但是有时,一名工程师犯下的一个编码错误就会影响到成千上万台计算机,造成重大故障,”前Facebook首席安全官、现斯坦福大学讲师亚历克斯·斯塔姆斯(Alex Stamos)表示,“换句话说,要让Facebook这样的复杂计算机网络重启,非常非常困难。”

Facebook发言人表示,周三的一个“服务器配置更改”在公司网络上产生了级联效应。一位现Facebook员工和一位前Facebook员工对此表示,这会导致故障不断循环,牵扯面越来越广,无法立即修复。

这个小错误酿成了大祸。Instagram用户无法查看其他人的资料、WhatsApp用户不能发送消息,Facebook主应用上的信息流变成一片空白。

098CC1B9106C3DC9659138FD385D7896BC2A81C4_w953_h716.jpg

宕机事故集中在Facebook主要市场

宕机追踪网站DownDetector表示,该公司收到了750万份有关Facebook应用的问题报告。相比之下,当YouTube在去年10月份发生大范围宕机时,DownDetector只收到了270万份问题报告。DownDetector衡量服务是否中断一定程度上取决于计算用户提交的问题报告数量。

“我们从未见过如此大规模的宕机事故,”DownDetector联合创始人汤姆·桑德斯(Tom Sanders)表示,

截至当地时间周四早晨,Facebook的大部分系统服务已经恢复,该公司依旧在试图弄明白这个故障是如何在其网络中“兴风作浪”的。Facebook管理人员强调称,这个故障并不是由入侵或者分布式拒绝服务攻击等网络攻击引发。

小错误酿成大祸

多年来,Facebook一直在招聘工程师,希望在几周内就能发布触及数十亿人的计算机代码。“看到我的工作对这么多人的生活产生了有意义的影响,我很有成就感,”一位员工在Facebook“求职”(careers)招聘网站上推荐Facebook工作时称。

但是,这也意味着一位员工的错误就能造成影响广泛的后果,尤其是在Facebook近期制定详细计划合并“应用家族”基础设施之际。一个计算机网络交织地越紧密,小的技术故障铸成大错的可能性就越高。

和其他互联网巨头一样,Facebook以“从不下线”为傲。这一目标推动Facebook成为了世界上最具影响力也是受到批评最多的公司之一。有20多亿用户预计每天至少在使用一项Facebook服务。

桑德斯称,随着人们越来越依赖通过Facebook服务与家人和好友聊天,开展工作,他们对于Facebook的服务稳定性寄予了更大希望。

“人们对于宕机事故的容忍度下降,越来越期待Facebook能够每年365天完美无缺地运行,”他表示。    企业受冲击更大

尽管宕机事故激怒了许多用户,但是它对依赖Facebook网络创收的企业造成了更紧急的后果,例如广告。

广告公司GroupM社交业务全球主管凯伊莉·泰勒(Kieley Taylor)表示,她的公司无法访问Facebook系统,这意味着新的广告活动被推迟。“宕机从来不是好事,”她表示,“幸运的是,它持续的时间相较短,但却是全面宕机。”

她的公司依旧在设法确定有多少广告活动受到了宕机事故的冲击。泰勒表示,由于Facebook广告系统采用在现收现付制(Pay-As-You-Go),所以GroupM不必要求Facebook为尚未兑现的广告活动退款。

GroupM把广告转移到了谷歌搜索、YouTube以及其他网站上,但表示鉴于Facebook的用户规模,该社交网络拥有独一无二的受众群。

“由于所有人都在这个平台上,Facebook仍旧是一个真正强大的数字营销平台,”泰勒表示。(作者/箫雨)

热门评论

>>共有0条评论,显示0
更多评论
created by ceallan