近日,谷歌云被曝发生故障,不少网站和服务因此遭到破坏,其中包括谷歌旗下服务以及非谷歌服务。据不完全统计,Snapchat、Vimeo、Shopify、Discord、Pokemon GO,以及谷歌的大部分服务,比如 YouTube、Gmail、谷歌搜索、G Suite 等均受到影响。
据了解,美国东海岸用户率先报告了这个问题,但宕机监控器 DownDetector 的报告表明,可能有更多地区受此影响。随后,一些欧洲用户也报告了这一问题,但北美地区用户受到的影响最大。DownDetector 发布的谷歌云平台声明中,称其 Google Compute Engine 遇到了多区域问题。
谷歌员工在 HackerNews 中表示,本次故障非常严重,以至于谷歌内部工程师相互沟通的工具也受到了影响,这让恢复工作变得更加困难。
从目前曝光的信息来看,本次故障可能与Level 3中断有关,这是一家总部位于美国的 ISP,为谷歌数据中心提供连接和各种其他服务。
据了解,谷歌云在过去一年也曾发生过宕机。2018 年 1 月 18 日,谷歌云自动化机制失效,导致其 us-central1 和 europe-west3 两大可用区中的计算引擎停运 93 分钟。谷歌对此的回应是“网络编程失效”导致 Autoscaler(自动扩展器)服务无法正常运行,该服务失效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联系。
2018 年 11 月 9 日,谷歌公有云上提供的 Kubernetes 服务(GKE)节点池建置功能出现异常,维运人员无法透过 Cloud Console UI 建立新节点。谷歌派工程团队调查故障原因,并开始着手维修。谷歌表示,受影响的企业用户可以先改为使用 GCP 内建的 gcloud command,建置新 Kubernetes 节点,这次的宕机时间长达 19 小时。