您现在的位置是:人工智能 >>正文
谷歌云服务大规模中断事件溯源,API 管理系统故障引发全球瘫痪
人工智能8人已围观
简介2025年6月12日,谷歌云Google Cloud)遭遇近年来最严重的服务中断事件,其API管理系统出现关键故障,导致全球数十项服务瘫痪长达七小时。此次事故源于服务控制Service Control ...
2025年6月12日,谷歌规模I管谷歌云(Google Cloud)遭遇近年来最严重的云服服务中断事件,其API管理系统出现关键故障,中断障引导致全球数十项服务瘫痪长达七小时 。事件溯源此次事故源于服务控制(Service Control)二进制文件中出现的理系空指针异常 ,该组件负责管理API授权和配额策略,统故影响范围覆盖谷歌云平台(GCP)和Google Workspace产品的发全数百万用户。

故障根源在于谷歌的球瘫服务控制系统——这个区域性服务负责在基础设施中授权API请求并执行配额策略。高防服务器2025年5月29日 ,谷歌规模I管工程师部署了新增配额策略检查功能 ,云服但相关代码既缺乏完善的中断障引错误处理机制 ,也未启用功能标志(feature flag)保护 。事件溯源
危机爆发的理系直接原因是:包含意外空白字段的策略变更被写入服务控制系统依赖的区域性Spanner数据库表。由于配额管理具有全球同步特性 ,亿华云统故这些损坏的发全元数据在几秒内就完成了全球复制。当服务控制系统尝试处理这些空白字段时,触发了未受保护的代码路径 ,导致空指针异常,最终引发所有区域二进制文件同时进入崩溃循环状态 。
"本次变更的根本问题在于既没有配置适当的错误处理机制 ,也没有启用功能标志保护。免费模板由于缺乏错误处理,空指针直接导致二进制文件崩溃 。"谷歌在事故报告中解释道。
网站可靠性工程(SRE)团队在10分钟内定位到根本原因 ,并在40分钟内部署了"红色按钮"紧急终止开关,关闭问题服务路径 。虽然大部分区域在两小时内恢复,但us-central1区域却遭遇持续性问题——当服务控制任务在这个主要区域重启时,对底层Spanner基础设施形成"羊群效应" ,海量并发请求导致数据库不堪重负。
工程师发现服务控制系统缺乏预防级联故障的服务器租用随机指数退避机制 。谷歌不得不限制任务创建 ,并将流量路由至多区域数据库以减轻过载基础设施的压力。这一延长恢复过程影响了包括谷歌计算引擎(Compute Engine)、BigQuery、云存储(Cloud Storage)在内的核心服务 ,这些产品构成众多企业数字业务的基石。
整改措施针对此次大规模服务中断 ,建站模板谷歌制定了全面整改方案:
立即冻结服务控制堆栈的所有变更和手动策略推送 ,直至系统完全修复对服务控制架构进行模块化改造 ,确保在个别检查失败时仍能保持API请求处理能力(故障开放而非关闭)全面审计所有使用全局复制数据的系统强制要求所有关键二进制变更必须启用功能标志保护受影响服务超过60项 ,涵盖Gmail、Google Drive 、Google Meet、App Engine 、云函数(Cloud Functions)和Vertex AI等产品。谷歌强调现有流媒体和基础设施即服务(IaaS)资源仍保持运行,源码库但客户在整个中断期间遭遇API和用户界面间歇性访问问题。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“算法与编程”。http://www.bzli.cn/news/981b299016.html
相关文章
分析开放式无线接入网的安全现状
人工智能开放式无线接入网 (ORAN or O-RAN) 是搭建一个开放、虚拟化和智能的无线接入网 (RAN) 体系结构,从而创造一个包含多家厂商、各家厂商的产品之间可以互操的生态系统。开放无线接入网(ORA ...
【人工智能】
阅读更多如何解锁苹果ID?(一步步教你快速恢复苹果账户的使用权限)
人工智能在使用苹果设备的过程中,我们经常会遇到苹果ID被锁定的情况,导致无法登录和使用苹果账户的各种功能。本文将详细介绍如何解锁苹果ID,让你重新获得使用苹果设备的权限。标题和1.验证你的身份为了保护用户账户 ...
【人工智能】
阅读更多htc one m9跑分是多少?htc one m9跑分评测
人工智能htc one m9跑分是多少呢?下文小编就为大家带来有关htc one m9跑分评测的内容,相信还有很多朋友对于htc one m9的跑分情况还不太清楚,下面就和小编一起去看下吧。 前 ...
【人工智能】
阅读更多