扫码阅读
手机扫码阅读
如何从整体视角设计量化的数据质量指标|示例
358 2024-06-28
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
数据驱动智能
扫码关注公众号
一 整体数据质量评分的必要性
虽然数据分析工具提供了丰富的功能来审视数据集的质量,但它们并不擅长回答有关数据集整体质量的简单问题。随着数据湖和数据科学的兴起,需要一种简单的指标,让非专家也能理解和找到合适质量的数据集。
二 如何设计良好的数据质量评分
数据质量评分需要简单易懂,不依赖于数据集的大小或约束设置,并且能够在不同数据集间进行比较。评分的设计应基于衡量数据集与对数据期望的匹配程度。
三 约束的概念和数据质量问题
数据的期望被定义为约束,这些约束可以是列的属性、域有效性、数据类、表间关系等。数据质量问题是当数据不满足这些约束时产生的。
四 隐式或显式约束以及数据质量问题的置信度概念
数据质量问题的置信度表示问题是真正问题的可能性。约束可以是显式的(由人指定)或隐式的(系统推断),隐式约束与置信度概念相关联。
五 汇总为统一的质量分数
数据质量得分计算考虑了单元格、列、行和数据集级别的问题。它不应重复计算同一值的不同问题。得分是基于没有问题的概率,然后将行、列和数据集级别的问题平均分配到单元格得分中。
最终,列和行的数据质量得分是其单元格得分的平均值,而数据集的得分是列或行得分的平均值。示例演示了如何将这些公式应用到具体的数据集中,结果表明数据集的数据质量得分为55%。
综述
统一的数据质量评分对于非专家来说是至关重要的,以便他们能够使用和比较不同的数据集。这种评分不仅有助于理解数据集的质量水平,而且对数据清理操作也很有用。
想要了解更多内容?
文章来源:
数据驱动智能
扫码关注公众号
数据驱动智能的其他文章
数据仓库、DataVault、DataLake、DeltaLake、DataFabric、DataMesh的特点和典型应用场景
数据仓库是组织收集和使用的所有数据的中央存储库
国家数据局为数据领域建设指明了5大方向
一 国家数据局关键论断1. 2023年11月23日第二届全球数字贸易博览会国家数据局长刘烈宏同志的重要观点(
数据共享挑战:隐私和安全|数据入表及资产化合规
数据共享可以给公司带来很多好处,但也带来了一系
晓谈企业数据管理五:数据湖和数据仓库
本文是由 4 部分组成的系列文章中的第三篇,该系列文章简要介绍了不同的数据解决方案以提供总体概述。
数据目录是激活元数据潜能的引擎
如果没有强大的数据目录功能来搜索数据资产和执行数据发现,那么一个好的元数据平台是不完整的。从长远来看,数据目
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线