扫码阅读
手机扫码阅读
不增加成本能更好应对生产系统稳定性意外故障的“开发测试运维三岗转为系统红蓝军”实验
414 2023-08-26
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
吾真本说混沌工程
扫码关注公众号
系统红蓝军对提升软件系统稳定性的影响
系统红蓝军的实施能够引导开发人员进行有效的功能自测,并有助于企业在不增加成本的情况下提高对生产系统稳定性意外故障的应对能力。
生产环境稳定性故障的常见问题
企业软件系统在生产环境中频繁遭遇稳定性故障,这些故障通常超出预期。
故障原因分析
此类故障的发生,往往源于管理者和工程师的心理特点,包括过度自信、确认性偏见、从众效应和注意力分散。
红蓝军机制的作用
建立红蓝军机制有助于克服上述心理特点,通过开发、测试和运维人员在红蓝军中的角色转变,实现了职责的明晰化和协作的优化,减少了意外故障并提高了故障修复的效率和质量。
实验设计与实施
作为企业IT部门开发团队负责人,需要设计一项实验来验证红蓝军机制的效果。实验包括设置对照组和实验组,保密实验细节以确保数据的准确性,同时采集关键指标如平均故障间隔时间(MTBF)和平均停机恢复时长(MTTR)。实验期间,对照组维持常规职责分配,而实验组则采用红蓝军的新机制。
实验将在半年的时间内进行,每两个月为一个迭代周期,期末分析比较数据,并不断迭代优化假设和实验过程。通过实验数据分析,验证红蓝军机制的有效性,并鼓励改进实验方法。
结语
文章最后呼吁读者参与改进实验,并分享文章,以促进更广泛的讨论和研究。作者表示愿意倾听读者的意见,并期待读者的反馈。
想要了解更多内容?
文章来源:
吾真本说混沌工程
扫码关注公众号
吾真本说混沌工程的其他文章
节省显示器同时提升持续集成问题修复及时性的“流水线问题责任聚焦”实验
如果将流水线健康显示屏撤掉,并要求每位开发人员,在向流水线合并代码后,需要通过自己的电脑显示器,观察流水线健康状态。直到状态变为绿色,才算合并成功。若其间发现红色/黄色告警,因为只有她/他一人在场,那么她/他主动修复问题的概率会达到最大。
混沌工程赋能:规模化地应对上云后的未知暗债
企业如何规模化地赋能团队,以应对上云后所遭遇的未知暗债?在解决这个复杂问题的过程中,混沌工程诞生了。
2016版编程操练神器Cyber-dojo的VMDK虚拟机镜像文件下载
经过Cyber-dojo的作者Jon Jagger的同意,我把在我电脑VirtualBox虚拟机中安装完毕的新版Cyber-dojo私有服务器的14GB大小的VMDK文件,切成14份,上传到云盘,供大家下载,能免去翻墙安装的痛苦。
什么是云原生?
究竟什么是“云原生”?是谁最先提出来的?它和微服务、容器化、云计算、DevOps等等相关概念是什么关系?
Code Review: 超越“审、查、评”的代码回顾
把Code Review称作“代码回顾”吧,而不要称作令人紧张的“代码评审”或“代码走查”,把它打造成软件开发团队“共同学习、识别模式和每日持续”的过程,来有效提升团队代码内在质量。
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线