扫码阅读

手机扫码阅读

数据库｜Drainer频繁故障，一次性解决问题！

1894 2024-02-01

binlog pump 故障 drainer TiDBserver

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：数据库｜Drainer频繁故障，一次性解决问题！

文章来源：

神州数码云基地

扫码关注公众号

故障分析与解决：TiDB集群Drainer频繁发生故障

摘要

本文由何傲撰写，深入分析了TiDB集群的drainer频繁发生的故障，提出了解决方案，并进行了后续监控和思考。

背景

用户报告生产环境TiDB集群的drainer多次发生服务崩溃和数据丢失。集群运行离线分析业务，数据量达20T，使用v4版本drainer，同步数据到kafka、file、tidb等多种形态的下游。

故障现象

下游kafka几个小时未收到数据，pump和drainer节点状态显示正常。通过API确认7个TiDB server的binlog_status为skipping状态，与之前故障相同，需重启TiDB server。

分析过程

初步怀疑drainer问题，但日志显示正常。监控显示binlog skip与critical error重合，进一步分析pump日志揭示磁盘空间不足为故障原因。监控显示从重启TiDB server后pump空间不足直到gc后空间释放。

解决方案

无法增加磁盘空间，决定缩短pump gc时间至1天，调整后binlog同步恢复正常。下游kafka的不敏感性对于数据丢失问题有缓解作用。

思考

重启TiDB server不是理想解决方案，发现API可用于恢复binlog。binlog同步脆弱，设置ignore-error后critical error频发，导致恢复过程复杂。

总结

在参数设置上留出buffer，注意pump gc的影响，加强对监控指标的研究，以便快速定位问题。

往期精选

Pump日志出现错误，你的数据被清空了吗？
TiDB v7.1.0：精准资源分配，实现数据流畅运行！
主中心意外故障？同城双中心教你紧急恢复

想要了解更多内容？

查看原文：数据库｜Drainer频繁故障，一次性解决问题！

文章来源：

神州数码云基地

扫码关注公众号

相关推荐

数据库｜不知道Binlog怎么自动清理？手把手教会你→

512

binlog 清理 names drainer

手把手教你弄懂TiDB Binlog清理机制

数据库｜实操硬核干货之监控告警处理

823

binlog 同步 tidb drainer

超详细干货内容，点击即可获得

数据库｜Pump日志出现错误，你的数据被清空了吗？

379

pump 日志

你的数据真的被清空了吗？

数据库｜TiDB Binlog实践指南，轻松实现主备集群部署和数据同步

577

tidb drainer pump deploy

灾备在手，时刻保持正常运行！

从研发效能的视角谈“故障复盘”

890

故障复盘系统根因

故障是表象，背后技术和管理上的问题才是根因。团队的复盘能力有多强，决定了团队的进步空间有多大。

云原生架构下的混沌工程实践

232

故障演练场景容灾

【可编辑原版文件资料参照文章底部方法获取】【关注零竖质量公众号，获更多精品资料下载】一、混沌工程简介混沌工程

神州数码云基地

我们致力于用数字技术重构企业价值，助力企业实现数字化转型升级。

187 篇文章

浏览 132.2K

神州数码云基地的其他文章

TiDB丨如何开启TiDB集群中的节点通信加密？

开启生产集群与加密通讯TLS的辛酸苦辣。

最前端｜一文详解Vue3.x 中 hooks 函数封装和使用

轻松封装复用功能，提升开发效率

TiDB丨从MySQL迁移至TiDB的常见问题及解决方案

数据迁移的问题解答干货！

手把手带你了解Odoo“视图”与“模型”之间的数据传输

数云融合丨知识图谱在烟草零售数字化转型中的应用

随机阅读

加入社区微信群

与行业大咖零距离交流学习

软件研发质量管理体系建设白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：xdwjack
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

数据库｜Drainer频繁故障，一次性解决问题！

摘要

背景

故障现象

分析过程

解决方案

思考

总结

往期精选

测试开发之单元测试-禅道结合ZTF驱动单元测试执行

联系我们

融实践库

微信公众号

微信视频号

社区微信群