扫码阅读
手机扫码阅读
构建高效的容量保障体系
274 2023-08-25
思维导图
容量保障对象
日常事件
计划事件
突发事件
提前评估可能发生的风险,并做好应对方案; 尝试混沌工程和容灾演练,不断丰富应对方案,提高团队面对突发情况的应对能力; 不断分析和优化业务以及技术架构,使系统具备弹性伸缩能力和一定的故障自愈措施(限流降级熔断);
容量保障方法
容量保障工具
压测平台
监控平台
基础监控:包括带宽、CDN、服务器CPU、Memory、DiskIO、Network、Load5等指标; 指标监控:服务+接口维度,常见指标有QPS、TPS、SLB、RT、99RT、timeout、activethreads等指标; 业务监控:拿电商来说,常见的有同比下单量、支付量、履约率、DAU、GMV、支付取消率等多重指标,一般需要根据具体的业务需要来定制化; 链路监控:链路监控主要用来快速定位排查问题,在目前大多数互联网公司的微服务架构下,服务调用关系复杂,链路追踪监控可以帮助技术同学快速的找到调用链路上某个环节的问题; 舆情监控:主要指对外部的一些讯息的监控,比如某APP突然挂了、下不了单、有BUG可以刷单、客诉等一系列对企业或者品牌不利的因素,便于快速处理甚至公关;
发布平台
预案平台
所有的预案都应该经过评估和验证确保有效; 所有的预案执行和变更都应经过审批和授权; 所有预案的执行和变更都需要经过快速决策;
容量保障组织
沉淀案例库:容量保障是个复杂的技术项目,特别是针对一些比较棘手的问题,定位分析和优化过程,经过复盘后都是很好的案例,可以帮助日常工作更好的开展; 制定流程规范:复杂的跨团队的技术实践,需要制定流程规范,让大家保持同一个方向和频次去落地的。因此制定流程规范并且推进规范的执行也是容量保障团队的重要职责; 降本增效运营:容量保障最重要的目的就是保障线上稳定性,降低成本。稳定性的提升和成本的降低也能从另一个角度促进团队效率的提高。而且容量保障是一个长期的持续的技术实践,需要持续的运营来保证稳定性的不断提升。 跨团队协调推进:复杂的跨团队的技术实践,需要制定流程规范,但是更需要有专门的角色来负责推动跨团队的协作以及信息的透明和同步。而且在企业内,不同部门之间的资源协调也是个很有意思的事情,需要专门的获得授权的团队才能从一定程度上解决部门墙问题。
原文链接:
http://mp.weixin.qq.com/s?__biz=Mzg2NDAwMjM1NQ==&mid=2247486440&idx=1&sn=2c2d0115852424b2f38bf92a135c0d7a&chksm=ce7143b4f906caa2eabcf1f4b68bf77e5a9df451346fdfda1259c7a5f2823d1efa4832773546#rd
老张的求知思考世界的其他文章
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线