我经常与那些准备投入大量时间和资源用于注定失败的数据质量计划的组织进行交谈。激励措施和关键绩效指标能够推动良好行为,这并不是什么秘密。销售薪酬计划受到严格审查,因此经常成为董事会会议的议题。如果我们对数据质量记分卡给予同样的关注,结果会怎样?
即使在 Hadoop 时代的传统数据质量记分卡的鼎盛时期,也很少取得巨大成功。在过去的几年里,云计算和元数据管理方面的进步使得组织大量数据成为可能。
数据工程流程开始趋向于更长期存在的工程学科的成熟度和严谨程度。当然,人工智能有潜力简化一切。尽管这个问题还没有——也可能永远不会——完全解决,但我已经看到一些组织采用了最 佳实践,而这正是计划成功与 12 个月后再举行一次启动会议之间的区别。
以下是构建数据质量记分卡的4个关键经验:
一 了解哪些数据重要
任何与数据相关的计划最容易失败的就是假设所有数据都具有同等价值。而确定哪些数据重要的有效方法就是与企业进行交流。
下面是一个很好的场景:
“我想问的是:
现在,如果您为一个拥有遍布全球的数万名员工的庞大组织工作,这可能说起来容易做起来难。
在这些情况下,我的建议是从对业务最关键的数据业务部门开始(如果您不知道,我帮不了您!)。开始讨论需求和优先事项。
只需记住:先证明概念,再进行扩展。你会惊讶地发现有多少人恰恰相反。
二 测量机制
简而言之,这类努力面临的持久挑战之一是数据质量难以标准化。质量是,也应该,从用例的角度来衡量。
数据质量的六个维度是任何数据质量记分卡的重要组成部分和重要的起点,但对于许多团队来说,这只是一个开始——而且每个数据产品都是不同的。
例如,财务报告可能需要高度准确,并具有一定的时效性,而机器学习模型可能恰恰相反。
从实施角度来看,这意味着衡量数据质量通常已完全联合起来。不同的分析师或管理员会根据不同的数据质量规则和权重,逐个衡量数据质量。
这在一定程度上是有道理的,但在翻译过程中却丢失了很多内容。
数据具有多种用途,并可跨用例共享。不仅一个人的“黄色”质量分数是另一个人的“绿色”,而且数据消费者通常很难理解“黄色”分数的含义或评分方式。他们还经常忽略绿色表格从红色表格输入数据的含义(你知道,垃圾进,垃圾出……)。
当然,公布违反规则的数量很重要,但你还需要:
那么你还需要什么?你需要测量工具。
换句话说,数据生产和交付的组成部分通常可以带来高质量。这更容易标准化。跨业务部门和团队也更容易理解。
Airbnb Midas是最著名的内部数据质量评分和认证项目之一,这是理所当然的。他们非常依赖这个概念。他们衡量数据的准确性——但可靠性、管理和可用性实际上占总分的 60%。
许多数据团队仍在制定自己的标准,但我们发现与数据健康高度相关的组成部分包括:
可用性和管理
系统可靠性
行动响应:
三 采取正确的政策
为生产者和消费者提供高质量数据激励。请记住,衡量数据健康状况的目的不是为了衡量数据健康状况。关键在于“推动人们倾向于生成和使用高质量数据”。
我在这里看到的最 佳实践是,对平台上的数据有一套最低要求,对每个级别有一套更为严格的认证要求。
认证起到了诱饵的作用,因为生产者确实希望消费者使用他们的数据,而消费者很快就会辨别并培养对高度可靠数据的品味。
四 自动评估和发现
如果没有一定程度的自动化和自助服务能力,数据管理几乎不可能成功。需要放弃任何 1) 无法立即理解和 2) 无法自动衡量的评分标准。
您的组织也必须这样做。即使这是有史以来最好的评分标准,如果您没有一套可以自动收集和显示它的解决方案,它就必须被扔进垃圾箱。
我见过最常见的方法是使用数据可观察性和质量解决方案以及数据目录。例如,罗氏公司就是这样做的,并将访问管理作为创建、展示和管理可信数据产品的一部分。
当然,这也可以通过手动将来自多个数据系统的元数据拼接到自主开发的可发现性门户中来实现,但请注意维护开销。
衡量即管理
数据团队已对其现代数据和 AI 平台进行了巨额投资。但为了最大限度地发挥投资价值,组织(包括数据生产者和消费者)必须完全接受并信任所提供的数据。
归根结底,衡量结果是为了管理。这难道不是最重要的吗?