大模型如何助力AIOps以保证高可靠的服务?
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
微软365(Microsoft 365 或 M365)是全球领先的生产力云服务,提供广泛的日常云服务,服务着全球亿级用户。微软365的高效和高度可靠的工程基础对于提供一流的生产力体验至关重要。在这种规模的服务中,“十亿分之一”的事件频繁发生,因此微软必须确保服务即使在灾难中也能100%可用。为了持续提供这种极高的可用性和可靠性,微软不断重新思考和改进其服务架构、设计、开发和运营,特别是在全面理解和减轻事件对客户影响方面。
微软通过使用人工智能(AI)和机器学习(ML)技术来增强产品特性外,还利用这些技术提升服务的可用性和可靠性。本文展示了将AI应用于管理生产事件生命周期的一个示例,并预告了未来会分享更多类似的用例。
研究发现
在研究中,微软采用了最新的GPT-3.x模型进行离线评估,通过计算模型生成的建议与实际根本原因或缓解步骤之间的词汇相似性。发现GPT-3.5模型在根因分析和缓解建议任务上比GPT-3模型的效果要好。特别是在机器报告的事件(MRI)上,由于其重复性,GPT-3.x模型的表现更为出色。此外,对LLM进行事件数据微调后,根本原因生成任务的性能提高了45.5%,风险缓解生成任务提高了131.3%。
从事件所有者的角度来看,GPT-3.5模型在实时生产环境中的有效性得到了确认,超过70%的OCEs给出了3分或以上的评分(满分5分)。
未来展望
微软正处于初步阶段,使用LLM帮助自动化事件解决。研究人员面对的挑战包括如何结合事件的其他上下文信息来改进诊断,如讨论条目、日志、服务度量以及服务的依赖关系图。数据过时也是一个挑战,因为模型需要定期使用最新的事件数据进行微调。
为应对这些挑战,微软正在利用最新的ChatGPT模型与检索增强方法结合,通过会话界面改进事件诊断。ChatGPT可以通过提出假设和回答关键问题,辅助工程师有效确定事件的根本原因。此外,它还能通过收集证据和生成连贯的响应来促进讨论,并加速事件解决过程。微软相信,通过上下文丰富的根本原因分析和风险缓解,可以在事件管理过程中实现功能改进,减少人力劳动,提升服务可靠性和客户满意度。
想要了解更多内容?
本公众号致力于健康、安全、绿色的软件生态,分享软件质量管理、软件测试的思想、方法、技术与优秀实践,追踪软件质量领域的热点,及时报道软件质量管理的成功案例或质量事故,以及分享深度思考、有温度的技术文章等,努力成为您工作中的朋友。