扫码阅读
手机扫码阅读

【数据治理】数据自动化清洗功能设计方案

354 2024-07-27

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:【数据治理】数据自动化清洗功能设计方案
文章来源:
零竖质量
扫码关注公众号
大数据清洗与自动化摘要

大数据清洗的重要性与方法

随着大数据时代的发展,数据清洗成为了数据分析行业的重要环节。数据清洗的目的是检查数据一致性、处理无效值和缺失值,以确保分析结果的准确性。常见的数据清洗方法包括:丢弃部分数据、补全缺失的数据、不处理数据和真值转换法。

自动化数据清洗流程

基础数据清洗可以通过开发人员在平台上配置并自动化执行,从ODS表转换为DWD表,无需人工干预。这一过程包括:全量进行基础清洗、在数据治理平台上开发并发布清洗程序、通过接口自动创建调度程序并发布。

自动清洗规则与前提条件

自动清洗的规则包括:DWD表名按规范生成、为ORC的分桶表、先备份再清洗、根据主键分组去重。而自动清洗的前提条件则包括:DWD表的创建基于ODS表的建表语句、数据踢重依赖于奥腾同步目录信息中的主键标识。

异常监控与上线方式

异常监控包括对自动化清洗程序生成失败、调度执行结果和ODS与DWD数据量对比的监控。上线方式可选择人工或自动上线,而对于特殊场景,可能还需治理人员单独开发治理程序。

数据资产平台与数据开发平台的角色

数据资产平台负责样例程序开发、自动化清洗程序生成、定时任务开发和统计监控。数据开发平台则负责新增接口的开发、归集ODS表的建表规范维护和增量归集方式的确定。

想要了解更多内容?

查看原文:【数据治理】数据自动化清洗功能设计方案
文章来源:
零竖质量
扫码关注公众号

专注数智化转型升级,致力于研究各行业数智化建设、大数据与数据治理、信息安全、人工智能与元宇宙等业务顶层设计咨询+落地解决方案、干货信息分享及生态合作....前沿科技资讯分享,打造专业数字化解决方案知识交流平台。

202 篇文章
浏览 47.6K
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设 白皮书上线