谷歌云全球崩盘！OpenAI、Shopify瘫痪，万亿级服务为何一夜失灵？

2025-06-23 11:12发布

8阅读

　　6月13日凌晨，电子卷尺原理谷歌云突发全球性服务中断，持续时间超过3小时，导致OpenAI的ChatGPT、电商巨头Shopify、支付服务Square等依赖其基础设施的众多平台陷入瘫痪。

　　根据谷歌云的状态页面显示，此次宕机始于太平洋时间上午10:51。谷歌方面表示，“我们正经历多个GCP产品的服务问题”，工程团队随即投入到紧张的调查当中。然而，随着时间的推移，问题的严重性逐渐凸显。当天晚些时候，谷歌不得不承认客户“仍在经历不同程度的影响”，并且对于服务何时能够全面恢复，公司并未给出明确的预计时间。

　　那么问题来了，当一家科技巨头的服务器故障能让半个互联网“停摆”，我们是否过度依赖中心化云计算？

　　从技术故障到全球连锁反应

　　据谷歌云官方事故报告，此次宕机源于“身份和访问管理（IAM）问题”，拉力机夹具原理导致亚太、北美、欧洲等多个区域的服务无法正常响应。尽管谷歌工程师在90分钟内定位问题并启动修复，但故障的“雪崩效应”已迅速蔓延：

　　Shopify在社交平台上无奈发声，称“注意到影响多项服务的问题”。Shopify依赖谷歌云提供的基础设施来保障其日常运营，宕机期间，众多商家的店铺访问、订单处理等功能都可能受到阻碍，进而影响到无数消费者的购物体验，潜在的经济损失难以估量。

　　而OpenAI也未能幸免。OpenAI表示，其在单点登录“及其他登录方式”上遇到了问题，并在社交媒体告知用户“工程团队正在努力缓解这些问题”。对于OpenAI这样的AI企业而言，登录系统的故障可能导致用户无法正常使用其开发的如ChatGPT等热门AI产品，不仅损害用户体验，还可能影响到企业的声誉和未来发展。

　　不仅仅是Shopify和OpenAI，此次谷歌云宕机还波及了众多其他网络服务。据Downdetector网站数据显示，在太平洋时间上午11:30左右，谷歌云的报告事件超过1.3万起，尽管到下午早些时候这一数字有所下降，但已足以说明此次事件受关注程度之高。

　　云安全和内容分发网络巨头Cloudflare也受到牵连。其发言人明确表示，“这是谷歌云宕机导致的”，虽然核心服务仍正常运行，但使用谷歌云的“有限”服务受到了影响。Cloudflare的状态页面显示，“我们看到许多服务出现间歇性故障，正在持续调查，并将在评估每项服务的影响后更新此列表”。

　　为什么一次云故障能“击穿”全球服务？

　　中心化架构的“阿喀琉斯之踵”。云计算的核心优势是集中化资源调度，但这也成为最大风险点。此次故障中，谷歌云的身份和访问管理（IAM）一旦失效，依赖其API的第三方服务便如“多米诺骨牌”般倒下。

　　冗余设计为何失灵？尽管云服务商承诺“99.99%可用性”，但复杂系统间的依赖关系可能导致冗余策略失效。例如，OpenAI虽采用多云备份，但其核心推理服务仍深度集成谷歌云，故障时切换不及。

　　企业“上云”的代价：便利性与风险并存。云服务降低了企业的IT成本，但也让它们将命脉交予少数供应商。此次事件后，已有专家呼吁推行“多云混合架构”，避免将鸡蛋放在一个篮子里。

　　云计算需要一场“去中心化革命”？

　　技术层面：边缘计算能否分担压力？将部分计算任务下沉到本地设备或边缘节点，减少对中心云的绝对依赖。

　　商业层面：“多云战略”升温其他云服务商或借此争夺谷歌云客户，企业可能重新评估供应商绑定风险。

　　保险与追责：云服务商的SLA（服务等级协议）赔偿能否覆盖企业损失？Shopify等平台或发起集体诉讼。

　　监管呼声：有议员提议将云计算纳入“关键基础设施”监管，要求巨头公开容灾方案并接受第三方审计。

　　写在最后