每次我们更新Google Docs的时候,都有一台机器去寻找那些需要升级的服务器。但由于内存管理的bug,这台查询的机器在查询完毕后没有正确地清空它们的内存,于是导致这些服务器最终耗尽内存,不得不重启。然而在重新之后,它们再次被查询的机器捕获,使得它们更快地再次耗尽内存,结果这些服务器在周三就无法正常的处理文档列表、文档、绘图和脚本。
整个事故持续了大概30分钟,之后用了24分钟回滚这次升级,过了5分钟之后服务器恢复了正常。Google的工程经理Alan Warren表示在分析了这次事故之后,有助于Google降低未来发生类似事故的可能性。