扫码阅读
手机扫码阅读
【数据治理】数据自动化清洗功能设计方案
354 2024-07-27
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:【数据治理】数据自动化清洗功能设计方案
文章来源:
零竖质量
扫码关注公众号
大数据清洗的重要性与方法
随着大数据时代的发展,数据清洗成为了数据分析行业的重要环节。数据清洗的目的是检查数据一致性、处理无效值和缺失值,以确保分析结果的准确性。常见的数据清洗方法包括:丢弃部分数据、补全缺失的数据、不处理数据和真值转换法。
自动化数据清洗流程
基础数据清洗可以通过开发人员在平台上配置并自动化执行,从ODS表转换为DWD表,无需人工干预。这一过程包括:全量进行基础清洗、在数据治理平台上开发并发布清洗程序、通过接口自动创建调度程序并发布。
自动清洗规则与前提条件
自动清洗的规则包括:DWD表名按规范生成、为ORC的分桶表、先备份再清洗、根据主键分组去重。而自动清洗的前提条件则包括:DWD表的创建基于ODS表的建表语句、数据踢重依赖于奥腾同步目录信息中的主键标识。
异常监控与上线方式
异常监控包括对自动化清洗程序生成失败、调度执行结果和ODS与DWD数据量对比的监控。上线方式可选择人工或自动上线,而对于特殊场景,可能还需治理人员单独开发治理程序。
数据资产平台与数据开发平台的角色
数据资产平台负责样例程序开发、自动化清洗程序生成、定时任务开发和统计监控。数据开发平台则负责新增接口的开发、归集ODS表的建表规范维护和增量归集方式的确定。
想要了解更多内容?
查看原文:【数据治理】数据自动化清洗功能设计方案
文章来源:
零竖质量
扫码关注公众号
专注数智化转型升级,致力于研究各行业数智化建设、大数据与数据治理、信息安全、人工智能与元宇宙等业务顶层设计咨询+落地解决方案、干货信息分享及生态合作....前沿科技资讯分享,打造专业数字化解决方案知识交流平台。
202 篇文章
浏览 47.6K
零竖质量的其他文章
筑牢数据安全防线:创新数据安全治理解决方案全面解析(附下载链接)
【关注公众号】:获更多精品资料下载!【新粉丝福利】:微信下方扫码添加助理微信,获取100套共18个行业数字化方案及报告大礼包免费下载链接(2024.6月整理),备注“新粉丝”。
数据新纪元:企业级数据分类分级自动化建设指南(附下载)
【关注零竖质量公众号】:获更多精品资料下载!关注“零竖质量”公众号,文末附《数据分类分级自动化建设指南》下载链接。
【数据安全】如何快速实现数据分级分类?(附免费下载链接)
【关注零竖质量公众号,获更多精品资料下载】【加博主私人微信:441059732,限量邀请入内部群,享更多权益】
53页PPT | 中国医疗产业数字化转型:进程、挑战与未来展望(附下载)
在当今数字化浪潮的推动下,中国医疗产业正经历着前所未有的变革。
AIGC技术与应用生态发展进入新阶段,引领内容产业大革命!
【可编辑原版文件资料参照文章底部方法获取】【关注零竖质量公众号,获更多精品资料下载】 AIGC,即人
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线