微软蓝屏搞瘫全球,都怪欧盟?

“蓝屏事件”事件,微软终于给出了说法。

7月22日,微软发言人在接受媒体采访时表示,欧盟的限制措施导致其无法锁定Windows系统,是引发本次全球性蓝屏事件的原因之一。

微软所说的欧盟限制性措施指的是,2009年微软与欧盟达成协议,根据协议要求,微软承诺给予所有安全软件与微软自身软件相同的Windows内核访问权限,使得像CrowdStrike这样的第三方安全软件开发商的安全产品,可通过Windows客户端和服务器系统中的API,访问并执行极其复杂的操作。

微软认为这一政策的代价是系统安全性降低,蓝屏死机事件正是这一政策后果的体现。微软发言人抱怨称,“尽管公司希望能够进一步锁定操作系统以提高安全性,但欧盟的要求使得这一目标难以实现。”

5天前的“蓝屏事件”确实影响巨大。7月18日,微软Window系统在全球范围陆续出现严重宕机,电脑无预警地陷入蓝屏状态。

办公室里,全球各地的白领打工人齐刷刷和蓝屏显示器合影留恋,自嘲微软让大家享受了周五放假。虽然社交平台上充满着调侃段子,但是蓝屏事件不能真的当作是嘻嘻哈哈的玩笑。操作系统在当下几乎可以看作是社会公用基础设施,宕机事故引发了一连串运营“灾难”。

除了办公室,多家机场、火车站、办公大楼外的显示屏也都一片“蓝”,美国、德国、澳大利亚等多地机场几乎瘫痪,从值机柜台到登机口的航显屏,全是一片“蓝色”。期间,光是美国就有超过2000架次航班停飞,超过5300架次航班延误。

除了运输行业,公共服务也受到了严重影响。电视台无法正常开展直播,医院挂号和病历系统无法使用,急救热线信息难以同步,无法接诊患者。

据微软统计,全球约有850万台设备在期间受到影响。

面对这场自2017年以来全球最大规模的宕机事件,人们先是指责微软,而后安全软件开发商CrowdStrike被认为是罪魁祸首,现在微软说,得怪欧盟。

01

2017年,勒索病毒WannaCry利用微软视窗系统漏洞袭击全球互联网。一旦中招电脑上的各类资料都无法正常打开,病毒制造者勒索价值约300美元的比特币。

相比较WannaCry攻击者身份的扑朔迷离,此次宕机事故缘由倒没有那么复杂,并非一起有针对性的安全事件或者网络攻击。

根据报道,在线安全解决方案服务商CrowdStrike公司的Falcon平台版本更新出现问题,是造成此次混乱的直接原因。据称,当日Falcon软件代码更新与Windows系统的交互方式有冲突引发了代码错误,而这一问题在版本上线前的测试中没有被关注到。

蓝屏事件后,CrowdStrike股价暴跌11%,市值一夜蒸发近百亿美元,创下了2022年以来最差单日表现。

据市场研究机构IDC统计,在价值86亿美元的端点检测和响应(EDR)软件市场中,成立于2011年的CrowdStrike占据了18%的市场份额,仅次于微软。

CrowdStrike是一家以AI驱动安全解决方案的公司。该公司旗下的Falcon平台利用人工智能和机器学习技术来检测、预防和响应网络威胁。软件需要更深层次地访问计算机的操作系统来扫描威胁,而这种访问权限使其有能力破坏它们试图保护的系统。

Falcon是一款to B端服务软件,每台机器的安装成本超过50美元。中小型公司,或者说电脑被攻击掀起不了严重后果的公司出于成本考虑并不会配备,只有对网络安全有较高要求的企业才会配备。截止2024年,CrowdStrike的客户遍及超过170个国家,总量超29000个,其中五百多家位列财富1000强。

这也意味着,安装了该软件的计算机是最需要保护的计算机,如果它们瘫痪,关键服务也会随之瘫痪。

在业内人士看来,此次事故说不上多么复杂的技术问题,更像是海恩法则得到了应验——每一起重大事故看似偶然,实则是各种不安全因素累积的结果。

美国网络安全和基础设施安全局局长珍·伊斯特利评论称,这是一起严重影响全球关键基础设施运行的重大事件,虽然这不是恶意的,但是“一个严重的错误”。

当前,全球的互联网关键基础设施高度数字化、高度相互依存、高度互联,而软件生态系统的保护并不到位,导致了系统呈现高度脆弱的特质,单一的bug就可以引起连带反应。

某种程度上,各家公司在构建网络空间的过程中,对速度的迫切要求使许多从业者安全运行意识在执行层面并不到位。

简单来说,CrowdStrike选在周五更新就是一个并不明智的决定。万一出现问题,就需要双休日加班维护,对于讲究WLB的美国人,双休日效率远不如工作日,甚至可能都联系不上。

“蓝屏事件”发生后,根据媒体报道,至少有75家客户有计划因宕机事故带来的连锁问题向CrowdStrike提出索赔。

02

为了解决问题,微软积极采取了包括流量重定向、修复策略验证及缓解措施的实施尽快恢复运作,在当天就解决了技术层面的问题,并一再强受影响的设备不到所有使用Windows系统设备的1%,试图弱化事故的严重性。

事件发生后,微软表现得很委屈,提示此次事故不是微软直接造成的,并且现在又将原因推给与欧盟在15年达成的协议,它还暗示到,苹果和谷歌并未受到类似限制。苹果在 2020 年就停止向开发者提供内核级访问权限,虽然给开发者带来不便,但也提升了系统稳定性。

苹果、谷歌各自的操作系统市场占有率非常低,根据知名机构StatCounter的数据,截止至2023年12月底,全球桌面操作系统中,微软的windows所占的份额为72.72%,是名副其实的互联网基础设施提供方。

份额越大,责任也就越大,虽然事情是CrowdStrike直接造成的,访问权限是欧盟要求的,但对系统上运转的程序缺乏必要的管控措施或者说备用方案,显然也是微软失职的。

类比一下,微软的操作系统是通向用户的高速公路,软件供应商是路上行驶的各类汽车。一旦出现事故,大家不可能抛开道路只说汽车的问题。汽车在道路上如何驾驶,道路管理方也该拿出规范方案。即使某一个车辆出现问题,也不会导致整个道路网瘫痪。

2023年11月,微软在内部发布“未来安全倡议”(Secure Future Initiative),强调要在基于AI的安全防御、强化基础软件工程,更稳妥的国际规范三方面发力。彼时,微软强调要利用AI的速度来击败网络攻击。

并且,正因为欧盟的规定给足了第三方安全软件开发商权限,所以微软更需要做足准备,要求第三方安全软件开放商严格执行软件更新协议,留出冗余度,提升IT人员应急处置能力。

显然,作为整个网络的基础服务提供商,微软制度性建设还有极大的提升空间。

所以,这就不难理解为什么外界没有放过抨击微软的机会,尤其是对微软一直不满的全球网红马斯克率先发难。

据报道,宕机期间特斯拉在美国的超级工厂出现了设备报错,部分工人看到系统停转选择提前下班。当时马斯克在个人账号直接和微软CEO纳德拉喊话,抱怨微软的故障给全球汽车供应链带来了影响。此外,马斯克还颇为得意地炫耀道自己旗下的X平台没有受到影响。

但马斯克可能笑得太早,未来特斯拉的系统也被迫开放时,也要做好充分的准备,否则“蓝屏事件”也未必就一定不会发生在特斯拉身上。

03

近几年,科技行业一路狂奔向前看,缺乏回头夯实基础服务和制度性建设的耐心。如现在所有的科技公司都在强调AI能力,反复宣传要把AI技术“融入生活的每一个环节”“无缝集成到每个应用”,一副要将触手伸到社会每一个角落的意图。

旧的不如新的,新的才有估值,而基础服务、基础设施似乎是“老古董”,不值得再大力投入。快速的迭代也意味着快速淘汰,近几年,不但许多新推出的智能产品都在短暂地追捧后,最后后不了了之,并且许多基础服务也日渐缺少维护。“蓝屏事件”就显示出这种“喜新厌旧”的后果。

但另一方面,这次事件也显示出高度互联的网络过于依赖单一基础技术服务提供方的风险。

目前来说,大型企业都应当配备备用通信链路,确保有效应对和快速恢复的能力,最大限度减少对关键服务的干扰。如何在系统失灵的情况下守住安全底线,能否在没有辅助工具的情况下保证核心业务的运营,是所有企业管理者都该思考的问题。

网络安全也早已不是商业层面的问题。

“当世界上大部分地区都在与‘微软蓝屏’作斗争,中国基本上毫发未损。”这是媒体发出的感叹。

对于国内用户,微软蓝屏事件更像是大洋彼岸的新闻,没有切身实感,从社交媒体上看,只有极少数外企受到了影响。

但其实windows系统在中国市场的占有率也非常高,只是很多运行的windows系统是盗版的,并未升级,并且,CrowdStrike在国内没有销售。所以国内运行windows系统的电脑躲过了一劫。

事件发生后,国内各大官媒纷纷发表评论强调网络基础设施的重要性,进一步表明国内在信息化时代必须走自主可控的发展道路。

360创始人、新晋网红周鸿祎更是在个人账号发布视频表示,电脑网络安全必须要掌握在自己手里,杀毒软件一定要是国产品牌。“假设将来有一天在大国博弈的时候,某家公司假装升级出错,然后导致系统出现蓝屏,那就不是电脑死机不上班的问题。”

这种顾虑在强调自主可控的大背景下,是得到很多人认同的。

如果说欧盟迫使微软向第三方安全软件开发商开放API,使其能访问并执行极其复杂操作,是反垄断措施,对微软彰显管辖权和控制力,那么这次事件后,各国也会重新思考在网络基础设施的保障、管理能力。

从务实的角度来说,全球科技行业的规则制定权仍在欧美手中,国内和美国在硬实力上确实还有差距,各家企业在调动资源上也不如硅谷龙头。但是,走自主发展目标不是要拼尽全力成为行业第一名,而是给国内用户更多的选择权,不至于在关键时刻受制于人。

一家公司的一个小错误掀起全球范围的停摆,是让各国深感忧虑的,本次蓝屏事件也绝对不会是最后一次全球性宕机,网络安全需要时刻保持警醒。