商务咨询

13020133833

技术支持

18621663782

您的反馈是我们前行的动力

你的大数据质量如何?

文章发表于2023-11-16 11:05:36,归属【科技前沿】分类,已有477人阅读

科技前沿

如果你认为有了大数据,你就能施展魔法,轻松提升你的业务。事实上,大数据并不是魔法。但是,如果你卷起袖子,做一些实质性的工作,这可能会奏效,并帮助你取得惊人的商业成果。

大数据确实很强大,但并不完美。本文展示了它带来的多重挑战,数据质量是其中之一。许多企业认识到这些问题,并转向大数据服务来解决这些问题。但是,如果大数据不是100%准确的,他们究竟为什么要这样做呢?好的大数据质量有多好?

 

如果你使用的大数据质量不好怎么办?

相对较低质量的大数据要么是极其有害的,要么不是那么严重。这里有一个例子。如果你的大数据工具分析了你网站上的客户活跃度,你当然想知道事情的真实状态。但是,保持100%准确的访客活动记录并不仅仅是为了查看全局。事实上,这根本不可能实现。

然而,如果你的大数据分析监测的是实时数据,比如医院的心脏监测器,3%的误差幅度可能意味着你未能挽救某人的生命。

所以,这里的一切都取决于一个特定的公司。有时甚至是在一个特定的任务上。这意味着,在急于将数据推到尽可能高的精度之前,你需要停下来一会儿。首先,你应该分析你的大数据质量需求,然后确定你的大数据质量应该有多好。

 

好的数据质量究竟是什么?

为了区分数据质量的好坏,我们需要一套标准来参考。不过,你应该注意到,这些适用于整体数据质量,而不只是与大数据相关。

当涉及到数据质量时,有许多标准集,但我们选择了5个最重要的数据特征,可以确保你的数据质量。

 

1. 一致性——逻辑关系

在相关的数据集中,不应该有不一致,如重复,矛盾,差距。例如,不可能为两个不同的雇员使用两个相似的id,也不可能引用另一个表中不存在的条目。

 

2. 准确性——事物的真实状态

数据应该是精确的、连续的,应该反映事物的真实情况。所有基于这些数据的计算都是真实的结果。

 

3. 完整性——所有需要的元素

你的数据可能包含多个元素。在这种情况下,你需要拥有所有相互依赖的元素,以确保能够以正确的方式解释数据。例如:你有很多传感器数据,但是没有关于传感器确切位置的信息。这样,你无法真正了解工厂设备的状态以及影响因素。

 

4. 可审核性——维护和控制

数据本身和整个数据管理过程应该以这样一种方式组织,即你可以定期或按需执行数据质量审计。这将有助于确保更高水平的数据充足性。

 

5. 有序——结构和格式

数据应该按特定的顺序组织。它需要符合你在数据格式、结构、适当值范围、特定业务规则等方面的所有要求。例如,烤箱里的温度必须用华氏度来测量,不能低于-14华氏度。

 

大数据质量有什么不同吗?

如果严格地说大数据,我们必须注意:并非所有这些标准都适用于大数据,也并非所有标准都是100%可以实现的。

一致性的问题在于,大数据的特定特征首先允许存在“噪音”。大数据的庞大体量和结构使得删除所有数据变得困难。有时,它甚至是不必要的。然而,在某些情况下,大数据中的逻辑关系必须到位。例如,如果银行的大数据工具检测到潜在的欺诈行为(比如,你的信用卡是在柬埔寨使用的,而你住在亚利桑那州)。大数据工具监控你的社交网络。它还可以检查你是否在柬埔寨度假。换句话说,它涉及来自不同数据集的关于你的信息,因此需要一定程度的一致性(你的银行账户和社交网络账户之间的准确链接)。

而在社交网络中收集对特定产品的意见时,重复和矛盾是可以接受的。有些人可能有多个账户,并在不同的时间使用它们,在第一种情况下,他们说他们喜欢这个产品,在第二种情况下,他们讨厌它。为什么没问题?因为在大范围内,它不会影响你的大数据分析结果。

关于准确性,我们已经在文章前面概述了它的级别因任务而异。想象一下这样一种情况:你需要分析上个月的信息,但有2天的数据消失了。没有这些数据,你就无法真正计算出任何准确的数字。如果我们谈论的是电视广告的浏览量,那就没有那么重要了:我们仍然可以在没有它们的情况下计算月平均值和趋势。但是,如果情况更严重,需要更复杂的计算或彻底详细的历史记录(例如心脏监视器),则不准确的数据可能导致错误的决策甚至更多的错误。

完整性也不是太需要担心的事情,因为大数据自然伴随着很多缺口。但是没关系。在2天的数据消失的相同情况下,由于有大量的其他类似数据,我们仍然可以得到不错的分析结果。即使没有这微不足道的一部分,整个画面仍然是足够的。

至于可审计性,大数据确实为其提供了机会。如果你想检查你的大数据质量,你可以实现。例如,创建检查数据质量的脚本并运行这些脚本,由于数据量大,这可能会很昂贵。

现在说说秩序。你可能应该为数据中的某种程度的“可控混乱”做好准备。例如,数据湖通常不太关注数据的结构和价值充分性。他们只是储存他们得到的东西。但在将数据加载到大数据仓库之前,通常会经历一个清理过程,这可能会在一定程度上确保数据的有序。但只是部分原因。

正如你所看到的,这些大数据质量标准没有一个是严格的,也没有一个适用于所有情况。定制你的大数据解决方案以最大限度地满足所有这些需求:

1. 花费很多。

2. 需要大量的时间。

3. 降低系统的性能。

这就是为什么一些公司既不追求质量好的数据,也不停留在质量差的数据上。他们会说“数据足够好”。这意味着他们设置了一个最小的令人满意的阈值,这将给他们足够的分析结果。然后他们确保他们的数据质量总是高于它。

 

如何提升大数据质量?

在制定大数据质量政策和执行任何其他数据质量管理程序时,我们有3条经验法则供你遵循:

规则1: 谨慎对待数据源。对于数据源,你应该有一个特定的可靠性层次结构,因为并非所有数据源都提供同样可靠的信息。来自公开或相对不可靠来源的数据应始终加以核实。这种有问题的数据源的一个很好的例子是社交网络:

社交媒体上提到的特定事件发生的时间是不可能追踪到的。

你无法确定上述信息的来源。

或者,算法很难识别用户帖子中传达的情绪。

规则2: 组织适当的存储和转换。如果你想要获得良好的数据质量,你的数据湖和数据仓库需要得到妥善的管理。当数据从数据湖转移到大数据仓库时,需要有一个相当“强大”的数据清理机制。除此之外,在这一点上,你的数据需要与任何其他必要的记录匹配,以达到一定程度的一致性。

规则3: 定期审核。这一点我们已经讨论过了,但值得特别注意。数据质量审计和大数据解决方案的审计一样,都是维护过程中必不可少的一部分。你可能需要手动和自动审计。例如,你可以分析数据质量问题并编写将定期运行的脚本,并检查数据质量问题区域。如果你在这方面没有经验,或者你不确定你是否拥有所有所需的资源,你可以考虑将你的数据质量审计外包。