文章发表于2024-05-08 09:30:31,归属【科技前沿】分类,已有544人阅读
大数据的5V是什么?
大数据的5V——速度(velocity)、体积(volume)、价值(value)、多样性(variety)和准确性(vaccuracy)——是大数据的五大固有特征。了解5V可以让数据科学家从他们的数据中获得更多价值,同时也可以让他们的组织变得更加以客户为中心。
本世纪初,大数据被称为“3V”——体积(volume)、速度(velocity)和多样性(variety)。随着时间的推移,又增加了两个V——价值(value)和准确性(veracity),以帮助数据科学家更有效地表达和传达大数据的重要特征。在某些情况下,大数据甚至还有第六个V项——可变性。
什么是大数据?
大数据是组织收集的非结构化、半结构化或结构化数据的组合。这些数据集可以被挖掘以获得洞察力,并用于机器学习项目、预测建模和其他高级分析应用程序。
大数据可以用来改善运营,提供更好的客户服务,并创建个性化的营销活动——所有这些都可以为组织增加价值。例如,大数据分析可以为公司提供有价值的客户洞察,然后可以用来改进营销技术,以提高客户参与度和转化率。
大数据可以用于医疗保健,以识别疾病风险因素,或者医生可以使用大数据来帮助诊断患者的疾病。能源行业可以使用大数据来跟踪电网,制定风险管理或进行实时市场数据分析。
使用大数据的组织比那些不使用大数据的组织具有潜在的竞争优势,因为它们可以做出更快、更明智的商业决策——就像数据提供的那样。
5个V是什么?
5V的定义如下:
1. 速度是指数据产生的速度和移动的速度。
2. 体积是指符合大数据标准的数据量。
3. 价值是数据提供的值。
4. 多样性是存在于数据类型中的多样性。
5. 准确性是指数据的质量和准确性。
速度
速度指的是数据产生的速度和移动的速度。对于需要数据快速流动的组织来说,这是一个重要的方面,因此可以在正确的时间使用它来做出最佳的业务决策。
使用大数据的组织将拥有大量连续的数据流,这些数据流正在被创建并发送到最终目的地。数据可能来自机器、网络、智能手机或社交媒体等来源。Velocity指信息到达的速度——例如,每天有多少社交媒体帖子被吸收——以及信息需要消化和分析的速度——通常是快速的,有时是近乎实时的。
例如,在医疗保健领域,当今许多医疗设备的设计目的是监测患者并收集数据。从医院医疗设备到可穿戴设备,收集的数据需要发送到目的地并快速分析。
然而,在某些情况下,收集一组有限的数据可能比收集组织无法处理的数据要好,因为这可能导致数据速度变慢。
体积
Volume是指存在的数据量。体积就像大数据的基础,因为它是收集数据的初始大小和数量。如果数据量足够大,就可以认为是大数据。然而,所谓的大数据是相对的,它会随着市场上可用的计算能力而变化。
例如,一家在几个州经营数百家商店的公司每天产生数百万笔交易。这被称为大数据,而商店每天的平均总交易量代表了大数据量。
价值
价值是指大数据可以提供的好处,它直接关系到组织可以用收集到的数据做什么。能够从大数据中获取价值是一种需求,因为大数据的价值会根据从中获得的洞察力而显著增加。
组织可以使用大数据工具来收集和分析数据,但如何从这些数据中获取价值应该是他们独有的。像Apache Hadoop这样的工具可以帮助组织存储、清理和快速处理大量数据。
大数据价值的一个很好的例子是收集个人客户数据。当一个公司可以对其客户进行分析时,它可以个性化他们在营销和销售方面的经验,提高沟通效率,并获得更高的客户满意度。
多样性
多样性是指数据类型的多样性。组织可能从多个数据源获取数据,这些数据源的值可能不同。数据也可以来自企业内部和外部。多样性的挑战涉及到所收集的所有数据的标准化和分布。
如上所述,收集的数据可以是非结构化、半结构化或结构化。非结构化数据是没有组织的数据,以不同的文件或格式出现。通常,非结构化数据不适合主流关系数据库,因为它不适合传统的数据模型。半结构化数据是没有组织到专门的存储库中,但具有关联信息(如元数据)的数据。这使得它比非结构化数据更容易处理。与此同时,结构化数据是组织到格式化存储库中的数据。这意味着数据可以更有效地处理和分析。
原始数据也可以作为数据类型。虽然原始数据可以属于其他类别——结构化、半结构化或非结构化——但如果根本没有接受任何处理,则认为它是原始的。raw(未经处理的格式)通常适用于从其他组织导入或由用户提交或输入的数据。社交媒体数据通常属于这一类。
一个更具体的例子是,一家公司收集了关于其客户的各种数据。这可能包括从交易或非结构化社交媒体帖子中剔除的结构化数据。其中大部分可能以原始数据的形式出现,需要在处理之前进行清理。
准确性
准确性是指数据的质量、准确性、完整性和可信度。收集到的数据可能有缺失的部分,可能是不准确的,或者可能无法提供真实的、有价值的见解。总体而言,准确性指的是对所收集数据的信任程度。
数据有时会变得混乱,难以使用。如果数据不完整,那么大量的数据可能会导致更多的混乱。例如,在医疗领域,如果关于患者正在服用的药物的数据不完整,则可能危及患者的生命。
价值和准确性都有助于定义从数据中收集的质量和见解。数据准确性的阈值通常(也应该)存在于组织的执行层,以确定数据是否适合高层决策。
第六个V:可变性
上面的5V涵盖了很多方面,在阐明大数据的正确使用方面有很大的帮助。但还有另一个V值得认真考虑——可变性——它并不是大数据的定义,而是强调了对大数据进行良好管理的必要性。
可变性指的是大数据在使用或流动方面的不一致性。在前者的情况下,一个组织可能有多个特定数据的定义。例如,保险公司可能有一个部门使用一组风险阈值,而另一个部门使用另一组风险阈值。在第二种情况下,以分散的方式流入公司数据存储的数据——没有共同的入口点或预先验证——可能会进入不同的系统,这些系统会对其进行修改,从而导致报告方面的事实来源相互冲突。
最大限度地减少大数据的可变性需要在数据通过组织系统时仔细构建数据流,从交易到分析以及介于两者之间的一切。最大的好处是大数据的准确性,因为数据使用的一致性可以产生更稳定的报告和分析,从而提高可信度。