扫码阅读

手机扫码阅读

TiDB | TiDB Lightning导入超大型txt文件实践

697 2023-09-08

文件 txt Lightning 导入 csv

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：TiDB | TiDB Lightning导入超大型txt文件实践

文章来源：

神州数码云基地

扫码关注公众号

TiDB Lightning 导入大型txt文件实践总结

TiDB Lightning 是一个专用于大数据量迁移至 TiDB 的工具，虽然官方文档主要提到对 CSV 文件的支持，但实际上经测试，也能够支持 txt 格式文件的导入。本文介绍了如何使用 TiDB Lightning 导入 txt 文件，尤其是在处理超大型 txt 文件时的实践和优化技巧。

导入简单的txt文件

尽管 TiDB Lightning 官方并没有明确指出对 txt 文件的支持，但通过测试和配置，可以实现 txt 文件的导入。这需要通过修改配置文件，并利用 Lightning 提供的文件路由特性以及正则表达式解析，将 txt 文件视为 CSV 进行处理。

对复杂分隔符的处理

txt 文件支持更复杂的分隔符，如组合字符或不可见字符。在配置文件中，可以使用 Unicode 编码来指定这些特殊分隔符，例如使用 "\u001b" 来代表键盘上的 ESC 分隔符。

对自定义文件名解析的处理

Lightning 的文件路由功能还允许通过正则表达式来解析文件名，并将这些文件关联到特定的数据库和表中。这对于批量导入符合特定命名规则的 txt 文件非常有用。

对特殊格式的处理

在数据导入过程中，需要特别注意空值（null）的处理和转义字符的处理。Lightning 提供了相关的配置选项来定义这些特殊情况的处理方式。

大文件导入优化

Lightning 能更高效地处理多个小文件而不是单个大文件。通过使用 Lightning 的严格模式或手动切分文件，可以优化大文件的导入过程。手动切分文件可以使用特定的脚本工具，如 TiChange_for_lightning，来实现。

生产环境实践

在生产环境中，作者分享了一个项目的经验，其中包含了100个数据文件，总大小超过12TB。通过手动拆分和分批导入的策略，在充分利用现有机器资源的情况下，成功在一天内完成了所有数据的导入。

总结

TiDB Lightning 是导入大数据量至 TiDB 的首选工具，不仅支持 CSV 文件，而且还能够处理 txt 文件。通过研究和利用 Lightning 的高级功能，可以有效地解决大文件导入时遇到的问题。建议使用最新版本的 Lightning，以减少已知问题并提高性能。

想要了解更多内容？

查看原文：TiDB | TiDB Lightning导入超大型txt文件实践

文章来源：

神州数码云基地

扫码关注公众号

相关推荐

TortoiseSVN 详细操作指南

473

文件目录版本库 SVN

TortoiseSVN 最明显的特性之一就是图标重载，重载的图标显示在你的工作副本文件上。你一眼就可以看到文件被修改过了。根据文件的 Subversion 状态的不同，重载的图标也不同

SonarQube系列-通过配置扫描分析范围，聚焦关键问题

1287

文件设置模式规则

❝在许多情况下，你可能不希望分析项目中每个源文件的各个方面。例如，项目可能包含生成的代码、库中的源代码或有意

(很干)Gitee 图床又崩了？手把手教你搭建一个自己的文件系统

379

文件文件系统存储：」

Gitee 图床又崩了？

FastDFS——从入门到入土

286

文件 storage nginx fdfs

进来给我学FastDFS！

一次惨痛教训让我写了个Windows定期备份文件脚本

427

文件复制目录 xcopy

每每想起那件事，不禁一个人在夜里默默哭泣

为什么文件删除了但磁盘空间没有释放？

742

文件进程 inode 磁盘空间

为什么文件删除了但磁盘空间没有释放?

神州数码云基地

我们致力于用数字技术重构企业价值，助力企业实现数字化转型升级。

187 篇文章

浏览 182.7K

神州数码云基地的其他文章

业务中台的一次演进

从一个软件工程师的角度去聊聊业务中台，努力做到通俗易懂。

Odoo | 7个步骤搭建的“在线表格组件”，十分丝滑~

Odoo 神州数码云基地在 Odoo 上的尝试、调研与分享

TiDB | TiDB在5A级物流企业核心系统的应用与实践

TiDB在新领域又一次成功交付！

数据库｜从源码分析TiUP如何判断TiDB集群状态

你听懂了吗？

从用户角度看Jira：为何它一直是最受欢迎的敏捷管理工具？

随机阅读

采用Minitab进行logistic回归分析

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

TiDB | TiDB Lightning导入超大型txt文件实践