周五凌晨,当CrowdStrike忙于应对大量崩溃报告时,微软内部的工程师也注意到了重大问题。数百万台Windows计算机陷入永久的蓝屏机状态,导致全球各地的重要服务器和PC瘫痪。
据知情人士透露,微软迅速宣布该事件为“严重程度为零”,即内部称为sev0。这是影响微软产品或服务的事件中最高、最紧急的级别。微软很少发生sev0级事件,这意味着人们会在半夜被叫醒,值班工程师会立即开始弄清楚发生了什么以及如何应对。
这项工作因第三方CrowdStrike成为问题的核心而变得复杂。7月19日星期五,美国东部时间凌晨12:09,CrowdStrike的一次更新最终导致850万台PC离线。这个错误可能不是微软的错,但肯定是微软的问题。这次中断影响了微软所谓的“优先客户”中的一些,即拥有关键基础设施的大型组织。这意味着微软必须与CrowdStrike工程师甚至亚马逊和谷歌等云计算竞争对手保持持续沟通。