扫码阅读

手机扫码阅读

我职业生涯最严重事故：基础设施变更引发的自动化灾难！

118 2024-07-04

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：我职业生涯最严重事故：基础设施变更引发的自动化灾难！

文章来源：

InfoQ

扫码关注公众号

文章摘要：高级工程师如何影响事故处理

作者：Erin Doyle / 译者：明知山 / 策划：Tina

高级工程师Erin Doyle在2023年旧金山QCon大会上分享了其团队如何处理一起严重的基础设施变更导致的客户数据丢失事故。事故发生后，团队花了三天时间才完全恢复服务，这一经历凸显了事故处理过程中的多个问题和改进空间。

事故简况

事故涉及基础设施通过Terraform管理，而一个产品团队提交的变更PR未经充分测试和评审就被部署，导致重要数据被标记为即将删除。监控系统延迟一天才发出警报，而在尝试控制损失时，出现了第二次事故。由于团队间协调不足，客户首先发现了问题。

影响因素

Doyle提到了瑞士奶酪模型，强调防御性措施的必要性。在这次事故中，多重防御层因为缺乏有效的测试、代码审查和部署验证而失败。

文化与防御性增强

Doyle认为，尽管公司文化已经具备支持性和包容性，但仍存在盲点。技术领袖可以通过提高工作透明度、承认知识上的不足、不断收集信息和质疑假设来推动文化的改进。

测试、代码审查与文化

变更提交者对测试的重要性认识不足，缺乏领域知识，不愿寻求帮助。技术领袖可以通过提问和跟进变化，鼓励寻求帮助，避免类似事故。

有效的事故响应

事故发生后，缺乏有效的事故指挥官和协调机制。Doyle认为高级工程师具备担任事故指挥官的能力，可以维持大局，管理更新，并与利益相关者沟通。

事后总结与持续改进

无责备的事后分析有助于发掘见解，但需要行动项跟进。高级工程师应成为促进强有力对话的引导者，并助推深入的根本原因分析，确定解决方案。

结论

改善工程文化可以减少事故数量和解决时间。高级工程师可以在事故响应、事后总结和根本原因分析中发挥关键作用，通过推动改进行动项，塑造一种学习型文化。

想要了解更多内容？

查看原文：我职业生涯最严重事故：基础设施变更引发的自动化灾难！

文章来源：

InfoQ

扫码关注公众号

相关推荐

数字化转型五个关键步骤六大核心工作

201

数字化转型数据团队

企业数字化转型主要流程及核心工作内容

2024数据产品经理求职面试tips

205

产品数据思维运营

掌握面试套路才能有的放矢从容应对

数据产品经理如何写好数据需求文档？

204

数据产品指标需求

打好数据产品经理的基本功

城市人口数据应用场景分析（附2020第七次人口普查区县人口数据）

158

城市用户渗透率整理

快速获取区、县粒度的最新人口数据？

A股行业与ETF轮动分析-8.26

126

ETF 动量领先轮动

构建A股的行业轮动图

【南瓜树可视化】如何基于南瓜树数智平台轻松开发数据大屏？

T. GROUP_CONCAT 组件可视化

南瓜树低代码平台的可视化组件，可以轻松构建数据大屏，目前南瓜树具备10类基础组件，12类图表组件，3类地图组件，1类3D组件；同时支持自定义扩展其他个性化的组件单元

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

98 篇文章

浏览 13.7K

InfoQ的其他文章

简化 Java 开发：启动多文件源码程序

JEP 458（启动多文件源码程序）已经在 JDK 22 中交付。这个 JEP 提议对 Java 启动器进行增强，可以执行包含一个或多个文件的 Java 源码应用程序。

大模型时代，我们可以用 Julia 做什么？| 盘点

本文是 “2023 InfoQ 年度技术盘点与展望” 系列文章之一，笔者将结合自己在大模型领域的开发经验和对 Julia 生态的理解，尝试从两个不同的角度来回答上述问题。

Doordash 的大规模隐私工程实践：地址遮蔽和数据保护

最近，DoorDash公布了他们是如何主动将隐私保护纳入其产品的。他们说明了隐私工程的重要性——这是一个经常被忽视的软件架构实践，并提供了一个例子，介绍如何遮蔽用户地址数据以更好地保护用户隐私。

Grab 改进 Kubernetes 集群中的 Kafka 设置，无需人工干预就可轮换 Broker 节点

Grab 更新其Kubernetes集群中的Kafka设置以提高容错性，并完全避免在Kafka Broker意外终止时需要进行人工干预。

致敬昨晚熬夜改 bug 的技术团队！连 OpenAI 也躲不过：为什么几行代码能反复干翻大批软件

2 月 29 日下午，有消息称禾赛科技激光雷达存在固件 bug，致使凡是用了禾赛激光雷达的车，自动驾驶功能全部歇菜。

随机阅读

使用ZenDAS进行Gompertz趋势分析

08-21

如何推广单元测试

07-12

加入社区微信群

与行业大咖零距离交流学习

软件研发质量管理体系建设白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@easycorp.ltd
融实践库
关于我们加入我们
微信号：xdwjack
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

我职业生涯最严重事故：基础设施变更引发的自动化灾难！

文章摘要：高级工程师如何影响事故处理

事故简况

影响因素

文化与防御性增强

测试、代码审查与文化

有效的事故响应

事后总结与持续改进

结论

联系我们

融实践库

微信公众号

微信视频号

社区微信群