新闻中心
数据分析vs数据质量评估-解决混淆(数据质量评估维度)
我在数据管理界看到的一个常见问题是,人们混淆了数据分析和数据质量评估的含义。
有些人倾向于交替使用这两个术语,原因很容易理解。
当我们第一次将数据分析工具插入到数据源中时,它可以帮助我们深入了解数据的质量水平。我们相信这些早期调查实际上是对数据的评估,因为它们为我们提供了统计数据和测量方法。
“评估”一词的以下定义有助于我们了解许多人的错误所在:
“定义:评估”
评估:确定价值、意义或程度of;”
许多人使用数据概要作为数据质量评估的起点和终点,因此他们缺乏确定概要结果是否为:
以平衡和正确的方式估价
对业务有重要意义
反映特定问题的真实程度
问题是我们忽略了几个关键阶段,所以让我们用一个更全面的工作流扩展我们的讨论。
步骤1:数据分析(也称为数据质量需求发现)
在这个阶段,我们使用数据分析软件来开始发现过程,但我们还没有进行评估。
数据概要分析有助于找到数据质量规则和需求,以便在后面的步骤中支持更彻底的数据质量评估。
例如,数据分析可以帮助我们发现价值频率、格式和模式,从而使我们相信某个特定属性是产品代码。
仅使用数据分析,我们可以发现一些可感知的缺陷和异常值,但就评估设备代码的质量而言,除非我们创建了跨越多个属性、实体甚至系统的更严格的质量定义,否则它将达不到要求。
根据我们的数据分析工具帮助我们发现的最初线索,我们最终会提出一系列额外的问题:
可行性:代码具有可行的业务功能还是冗余?
相关性:代码的质量是否由其他属性决定,例如制造商代码或其他属性值的组合?
扩展:我们可以(并且应该)分解代码以提取更多有助于我们验证其价值质量的信息吗?
在您的第一个数据分析活动中,您已经开始了一个数据质量需求收集的过程,而不是数据质量评估的过程,当所有的需求都被封装为可执行的数据质量规则时,这将为我们提供一个更全面的数据质量度量。
步骤2:创建数据质量需求
有了我们的数据分析见解,我们现在可以开始定义一些数据必须遵守的数据质量规则。
我们为什么要这么做?
因为我们需要一种方法,将我们的数据质量与一套公认的标准进行比较。数据分析结果本身只是简单地发布统计数据,根本没有支持率或上下文验证。
例如,在之前的一项任务中,我发现了一个公用事业组织的各种内部工厂设备的位置信息的重大问题。根据分析结果,这一数字令人沮丧,40%的设备缺少位置值——经典的“完整性”维度。
然而,这个分析图并没有给我们提供真正的数据质量评估,因为:
这些设备中有很大一部分实际上已经退役或被分配给了备件
许多设备属于其他伙伴,因此超出了范围
有些设备实际上是在另一个系统中掌握的,因此根据设备类型,从另一个来源收集位置数据非常重要
正如您所看到的,数据分析功能可以帮助我们发现这些规则和需求,但是数据分析本身不能给我们一个准确的评估。相反,我们必须在其他地方定义和构建规则。
第三步:数据质量评估
好了,我们已经分析了数据,发现了一组广泛的数据质量要求或规则,现在我们需要将这些规则进行测试。
我们在规则库中评估数据,并记录通过和失败的数据,从而创建一个真正的数据质量评估。
(显然,从纯粹主义的角度来看,我们能够真正评估数据质量的唯一方法是验证数据的真实来源,但这在大多数情况下显然是不切实际的)。
因此,在我们前面的例子中,我们将基于一组比分析数据更严格的规则来评估设备的位置。我们可以使用分析函数来根据数据质量要求验证函数、长度、代码值和子字符串值,但目标是根据一组批准的标准确定每个值是否通过或不通过。
使用这种方法,我们可以更清楚地了解数据质量的“健康状况”。
许多公司在第一次对数据运行数据分析软件时,会立即感到恐慌,因为这些软件会突出大量的缺陷。然而,如果他们了解大局,并开始通过分析、需求收集和数据质量评估阶段,他们就会开始对数据的好坏有一个更加平衡和主观的看法。