互联网

Crowd Strike软件瑕疵致全球IT故障,专家呼吁加强软件测试与供应链安全

来源:互联网    作者:      2024年08月09日 14:04

导语:

云计算大数据时代,各行各业智能化、数字化应用越来越普及,在此背景下其业务系统的稳定性越来越受到关注,面临的安全挑战比以往更加严峻。不久前,美国网络安全企业Crowd Strike更新引发全球Windows大面积蓝屏死机,网络安全性再次成为全球关注的焦点。8月7日,记者采访了清华大学计算机教授翟冀冬、中科院计算所研究员郝沁以及Testin云测CEO徐琨,试图从技术角度深入探讨此次事件的原因、影响及未来软件企业的启示。



一组代码瑕疵造成史上最大规模IT故障

这次,网络安全巨头CrowdStrike的一次软件更新导致了全球范围内大规模的系统崩溃,被业界称为“史上最大规模IT故障”。多个国家和地区的航班系统、银行系统、政府网络等关键基础设施受到波及,造成了巨大的经济损失和社会影响。

“这次CrowdStrike宕机事件在全球范围内引发广泛关注的,不仅暴露了网络安全领域的脆弱性,也促使业界对软件企业的技术安全与管理进行了深刻反思。”清华大学计算机教授翟冀冬认为,“CrowdStrike的产品设计高度依赖于内核级驱动,这种设计虽然提升了安全性能,但也大大增加了系统的不稳定性。”翟教授进一步解释道,“驱动程序直接调用系统内核接口,一旦策略配置不当或同步机制处理有误,极易引发系统死锁,造成蓝屏保护。”

Testin云测CEO徐琨则认为,技术层面上来说,CrowdStrike是用于优化计算机防护系统,但由于代码中的一个关键瑕疵,导致了全球大量Windows计算机无法正常启动。这一问题不仅影响了无数个人用户,还对多个企业和机构的日常运营造成严重干扰。尤其是CrowdStrike在部署过程中出现了处理器与内存之间的不兼容问题,导致系统在启动时陷入死循环而无法完成启动过程。但这一Bug在公司内部的测试中没被发现,在发版应用后,引发了大家所看到的大规模计算机的崩溃。

全球网络安全生态面临重重考验

此次事件的影响范围之广、损失之大,远超以往任何一次由安全产品引发的系统崩溃。据初步统计,该事件给财富500强企业带来了高达54亿美元的损失,多个国家和地区的交通、金融、医疗、零售等行业遭受重创。

中科院计算所研究员郝沁强调:“这不仅是一次单纯的技术故障,更是对全球网络安全生态的一次重大考验。它暴露了现代IT系统高度依赖第三方安全产品的现状,以及这些产品一旦出现问题可能引发的连锁反应。”

“快速迭代的开发流程可能导致测试周期被压缩,从而减少了发现潜在问题的机会,这个事件的影响和损失也为全球软件企业敲响了要重视测试工作、重视软件质量的警钟” Testin云测CEO徐琨认为,CrowdStrike的这次更新旨在针对新近观察到的恶意命名管道,但配置更新中却引入了逻辑错误,导致操作系统崩溃。这个错误配置在测试阶段没有被发现,原因可能是测试环境未能充分模拟实际生产环境中的所有条件和边界情况;测试覆盖度不足,可能未涵盖到所有可能的配置和交互场景;测试过程中可能未能捕捉到这种复杂的系统交互问题等。

郝沁研究员补充说:“软件供应链的安全问题也不容忽视。CrowdStrike作为全球领先的网络安全公司,其产品依赖的第三方库和组件如果存在漏洞或错误,同样会对系统安全构成威胁。”

加强软件测试与验证强化供应链安全保障

“国内相关信息化企业应该总结这个事件经验和教训,积极做好自身开发的应用软件的测试工作,保障软件具有较好的可靠性,避免给使用者带来不必要的损失,也避免对公司自身带来名誉及经济损失。”翟冀冬教授告诉记者,针对这次事件对未来软件企业应该敲响警钟,要加强软件测试与验证,软件发布前必须经过严格的测试和验证,确保所有功能模块在不同环境下都能稳定运行。特别是对于涉及系统内核的驱动模块,更应进行深入的兼容性测试和压力测试。

CrowdStrike在发现错误后虽然采取了积极的补救措施,但恢复速度仍受到一定限制。Testin云测CEO徐琨认为,问题发生后CrowdStrike迅速识别了问题的根源,并撤销了错误的更新包,这是防止问题进一步扩大的关键步骤。同时,还发布了详细的解决方案,指导受影响的用户如何手动删除有问题的配置文件以恢复系统正常运行。这些措施表明CrowdStrike在应对突发事件时具有较高的响应速度和危机处理能力。更为关键的是应该进一步加强测试环节的质量控制,确保类似问题不再发生。同时,也可以考虑引入更先进的自动化测试工具和技术,提高测试覆盖度和准确性,为数字化企业的稳定运行提供更加坚实的保障。

此外,郝沁研究员认为,数字企业还应优化软件架构,尽量减少内核级驱动的使用,采用更为安全和稳定的用户级解决方案。同时,设计合理的错误处理和恢复机制,避免单点故障导致整个系统崩溃。强化供应链安全管理,对第三方库和组件进行严格的安全审查,确保其不存在已知漏洞或错误。建立供应链安全监控机制,及时发现并修复潜在的安全风险。来源: 中国科技网 作者: 杨峰


(文章为作者独立观点,不代表贝塔网立场)
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。

扫一扫,或长按识别二维码

关注贝塔网官方微信公众号