Atlassian云服务宕机事故究竟给了我们什么启示？

敏捷 Atlassian 事故 ID 停用

发布于 2023-07-20

742

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Atlassian云服务宕机事故究竟给了我们什么启示？

文章来源：

徐东伟Jack

扫码关注公众号

扫码阅读

手机扫码阅读

本文主要分析了Atlassian在4月5日发生的云服务宕机事故的原因、影响、处理过程及从中得到的教训。宕机影响了约400个客户的Jira和Confluence服务，并在发表本文时已为55%的客户恢复了功能。此次宕机违反了Atlassian自身设立的服务水平协议(SLA)且数据安全成为关注焦点，给公司信誉带来了影响。

01 事故发生的原因

事故发生的根本原因包括跨团队沟通问题和脚本使用错误。沟通问题主要体现在请求停用应用的团队未能明确提供所需的应用ID，而提供了云站点ID。脚本使用错误则在于工程团队选用了错误的执行模式和ID列表，导致大量客户站点被不当删除。

02 事故教训

从事故中可学到的包括：跨团队合作时需要有效沟通、校验过程的重要性、自动化程度的提高以及在操作中使用自然语言的好处。这些教训强调了预防和校验机制在避免此类事件中的作用。

03 事故恢复

对于数据恢复，Atlassian的恢复速度较慢，部分原因是自动化程度不足。尽管有多地AWS备份，但公司缺乏在不影响其他客户的前提下恢复大量客户数据的能力。Atlassian通过增强自动化手段提升了恢复效率，并提醒其他企业检查自身的灾难恢复水平。

04 总结与升华

Atlassian事故强调了服务连续性和快速恢复能力的重要性，以及在技术和管理上的投入不足。事故揭示了企业在流程合理性、计划性以及资源投入方面的提升空间。此外，透明的状态更新对于管理利益相关者期望和降低焦虑同样重要。最后，文中鼓励行业内企业从事故中吸取教训，提供更好的用户服务。

徐东伟Jack

查看原文：Atlassian云服务宕机事故究竟给了我们什么启示？

文章来源：

徐东伟Jack

扫码关注公众号

相关推荐

敏捷与瀑布深度解读！

641

敏捷项目方法需求

【可编辑原版文件资料参照文章底部方法获取】【关注零竖质量公众号，获更多精品资料下载】所有人都想变得“敏捷”,但

团队级敏捷真的没你想的那么简单

907

敏捷团队教练转型

团队级敏捷阻力太大怎么办？敏捷教练一撤就打回原形怎么办？

领导者如何培育敏捷组织文化，高效赋能团队

1477

敏捷团队领导者

在实现自我转型并赋能团队后，领导者需要深度思考如何培育敏捷组织文化，推动组织层面的敏捷转型，将敏捷的 DN

你实践的是谁的敏捷：写给被裹挟在敏捷中的小伙伴（上）

1329

敏捷实践组织团队

DP哥不喜欢吐槽，但希望和大家分享思路，因此尝试从动机的角度去分析敏捷实践，希望能帮助小伙伴们厘清问题思路，摆正自己在敏捷实践中的位置，也希望能使小伙伴们感知到“敏捷对自己的好”，提高对敏捷实践的信心。

技术管理 | 当我们在谈敏捷时我们在谈什么？

395

敏捷迭代团队会议

敏捷的概念包含价值观和原则、敏捷软件开发具体的工作框架、常见敏捷实践、敏捷迭代会议等内容。

敏捷，凉了。

774

敏捷教练 DevOps

是什么原因让在国内的敏捷执行和敏捷的初衷背道而驰？这种偏离的原因是什么，让国内的敏捷实践背离了其最初的愿景？

专注于敏捷转型、业务敏捷和敏捷组织！

57 篇文章

浏览 38.5K

徐东伟Jack的其他文章

敏捷组织中还有PMO的容身之所吗？

敏捷教练和PMO，永不休止的话题！

跟我读Scrum Guide #2 Scrum真没要求那么多，是你想多了！

是时候重新审视《Scrum Guide》，是时候重新审视自己的Scrum实践，回归本源！

领导你不回我微信是几个意思？

聊聊和领导打交道的那点儿事儿......

变革管理者如果想明白这件事离成功也就不远了

理论和表达，你要解耦啦！

我也来聊聊传说中的敏捷和小瀑布

关于敏捷和小瀑布的讨论由来已久，有人说它们俩相爱相杀，有人表示相当滴困惑！这么说听起来还真是复杂的呢！来，看看我的观点……

随机阅读

案例：每日站立会议落实情况的再跟踪

从3级到高成熟度的18项可能的变化

使用Gompertz模型预测非典的趋势

公司级项目管理例会的汇报内容

回归方程有效性的检查

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线