文章发表于2025-04-01 09:39:02,归属【科技前沿】分类,已有29人阅读
大数据是指人类和机器产生的海量结构化和非结构化信息。据普华永道(PwC)称,每天产生的数据量可达PB级别。它可以是我们为了解客户情绪而挖掘的社交帖子、显示机械设备状态的传感器数据,或是以超高速进行的金融交易数据。大数据的规模过于庞大、类型过于多样,而且数据产生的速度极快,传统的数据处理工具和方法根本无法应对。
然而,大数据的价值极高,若不加以分析实在可惜。大数据意味着能够从这些广泛的数据集合中提取有价值的见解,帮助企业提高效率、加速创新、增加收入,从而在各个方面取得成功。
幸运的是,分析技术和机器学习技术及工具的进步,使得每家公司都能够进行大数据分析。
什么是大数据?大数据的定义
大数据是指极其庞大且复杂的数据集,无法使用传统的数据处理工具(尤其是电子表格)轻松管理或分析。大数据包括结构化数据,如库存数据库或金融交易列表;非结构化数据,如社交帖子或视频;以及混合数据集,比如用于训练人工智能大语言模型的数据。这些数据集可能涵盖从莎士比亚的作品到一家公司过去 10 年的预算电子表格等任何内容。
随着近期技术上的突破大幅降低了存储和计算成本,大数据的规模还在不断扩大,使得存储更多数据变得比以往任何时候都更加容易和便宜。随着数据量的增加,公司能够利用这些数据做出更准确、精确的商业决策。但是,要充分发挥大数据的价值,不仅仅在于对其进行分析 —— 这只是其中一个好处。这是一个完整的发现过程,需要有洞察力的分析师、业务用户和管理人员,他们要提出正确的问题、识别数据模式、做出明智的假设,并预测行为。
大数据的五个 “V” 是什么?
传统上,我们通过三个特征来识别大数据:多样性(variety)、大量性(volume)和高速性(velocity),也就是所谓的 “三个 V”。然而,在过去几年中,又出现了另外两个 “V”:价值性(value)和真实性(veracity)。
这些新增的特征是有道理的,因为如今数据已成为一种资本。想想世界上一些大型科技公司,它们提供的许多产品都是基于其数据,并且不断对这些数据进行分析,以提高效率并开发新的项目。企业的成功取决于这五个 “V”。
大量性(Volume):数据量至关重要。处理大数据时,您需要处理大量低密度的非结构化数据。这些数据可能价值未知,例如 X(前身为Twitter)的数据流、网页或移动应用程序上的点击流,或配备传感器的设备产生的数据。对于一些组织来说,数据量可能是数十TB;而对于另一些组织,则可能是数百PB。
高速性(Velocity):高速性是指数据接收以及处理的速度。通常,最高速的数据流会直接进入内存,而不是写入磁盘。一些联网的智能产品实时或接近实时运行,这就需要实时评估和处理。
多样性(Variety):多样性是指存在的多种数据类型。传统的数据类型是结构化的,能够整齐地存储在关系数据库中。随着大数据的兴起,出现了新的非结构化数据类型。非结构化和半结构化数据类型,如文本、音频和视频,需要额外的预处理才能提取其含义并支持元数据。
真实性(Veracity):您的数据有多真实,您又能在多大程度上依赖它呢?数据真实性的概念与其他功能概念相关,例如数据质量和数据完整性。最终,这些概念相互重叠,引导组织建立一个数据存储库,提供高质量、准确和可靠的数据,为洞察和决策提供支持。
价值性(Value):数据在商业中具有内在价值。但在价值被发现之前,数据毫无用处。由于大数据集合了广泛而深入的见解,在所有这些信息中,必定存在着能够使您的组织受益的洞察。这种价值可以是内部的,例如可能优化的运营流程;也可以是外部的,例如能够最大化客户参与度的客户画像建议。
大数据的演进:过去、现在和未来
尽管大数据的概念相对较新,但管理大型数据集的需求可以追溯到 20 世纪 60 年代和 70 年代,当时出现了第一个数据中心和关系数据库的开发。
过去:大约在 2005 年,人们开始意识到用户通过 Facebook、YouTube 和其他在线服务产生了大量数据。同年,开发了 Apache Hadoop,这是一个专门为存储和分析大数据集而创建的开源框架。在此期间,NoSQL 也开始受到欢迎。
现在:Apache Hadoop 以及最近的 Apache Spark 等开源框架的开发,对大数据的发展至关重要,因为它们使大数据的处理更加容易,存储成本也更低。从那以后的几年里,大数据的数量急剧增加。用户仍在生成大量数据,但不仅仅是人类在产生数据。随着物联网(IoT)的出现,越来越多的物体和设备连接到互联网,收集有关客户使用模式和产品性能的数据。机器学习的出现也产生了更多的数据。
未来:尽管大数据已经取得了很大进展,但随着生成式人工智能和云计算在企业中的应用不断扩展,其价值只会不断增长。云提供了真正的弹性可扩展性,开发人员可以轻松启动临时集群来测试数据子集。图数据库也变得越来越重要,因为它们能够以一种使分析快速且全面的方式显示大量数据。
大数据的优势
大数据服务通过整合各种不同的数据集,形成一个完整的图景,从而能够更全面地理解趋势和模式。这种融合不仅有助于进行回顾性分析,还能增强预测能力,实现更准确的预测和战略决策。此外,当与人工智能结合时,大数据超越了传统的分析方式,使组织能够解锁创新解决方案,推动变革性成果。
更完整的答案意味着对数据更有信心,这意味着采用完全不同的方法来解决问题。
1. 更深入的洞察:当组织拥有更多数据时,就能获得更深入的洞察。在某些情况下,更广泛的数据范围可以在更多样化的情况下验证直觉。在其他情况下,更大的数据池可以揭示以前隐藏的联系,并拓展可能被忽略的视角。所有这些都使组织能够更全面地理解事物的运作方式和原因,尤其是当自动化使得大数据的处理更快、更轻松时。
2. 决策制定:有了更深入的洞察,组织能够基于数据做出决策,并且预测和预估更加可靠。当大数据与自动化和分析相结合时,就开启了一系列的可能性,包括更新的市场趋势、社交媒体分析,以及为风险管理提供信息的模式。
3. 个性化的客户体验:大数据使组织能够通过结合客户销售数据、行业人口统计数据以及社交媒体活动和营销活动参与度等相关数据,建立客户画像。在自动化和分析出现之前,由于数据量过大,这种个性化是不可能实现的;而有了大数据,这种精细程度的个性化可以提高客户参与度,提升客户体验。
4. 提高运营效率:每个部门都会产生数据,即使团队并没有真正意识到这一点。这意味着每个部门都可以从运营层面的数据中受益,用于诸如检测流程异常、识别维护和资源使用模式,以及找出人为错误的潜在原因等任务。无论是技术问题还是员工绩效问题,大数据都能提供有关组织运营方式以及如何改进的洞察。
大数据的应用案例
大数据可以帮助优化一系列的商业活动,包括客户体验和分析。以下是一些例子:
1. 零售和电子商务:像 Netflix 和Procter & Gamble这样的公司利用大数据来预测客户需求。他们通过对过去和当前产品或服务的关键属性进行分类,并对这些属性与产品或服务商业成功之间的关系进行建模,为新产品和服务建立预测模型。此外,宝洁利用来自焦点小组、社交媒体、测试市场和早期店铺推广的数据和分析,来规划、生产和推出新产品。
2. 医疗保健:医疗保健行业可以在内部整合众多数据源,如电子健康记录、患者可穿戴设备和人员配置数据,在外部整合包括保险记录和疾病研究等数据,以优化医疗服务提供者和患者的体验。在内部,运营团队提供的洞察可以优化人员排班、供应链和设施管理。对于患者来说,他们的即时和长期护理可以因数据驱动而发生改变,比如个性化的建议和预测性扫描等。
3. 金融服务:在安全方面,面临的不仅仅是少数恶意攻击者,而是整个专业团队。安全形势和合规要求在不断变化。大数据有助于识别数据中表明欺诈的模式,并汇总大量信息,使监管报告的速度大大加快。
4. 制造业:能够预测机械故障的因素可能深藏在结构化数据中(比如设备的年份、品牌和型号),也可能存在于涵盖数百万条日志记录、传感器数据、错误消息和发动机温度读数的非结构化数据中。通过在问题发生之前分析这些潜在问题的迹象,组织可以更经济有效地进行维护,并最大限度地提高零部件和设备的正常运行时间。
5. 政府和公共服务:政府部门有可能从许多不同的来源收集数据,如机动车管理局(DMV)记录、交通数据、警察 / 消防员数据、公立学校记录等等。这可以通过多种方式提高效率,例如检测驾驶员趋势以优化交通路口管理,以及在学校中更好地分配资源。政府还可以公开数据,提高透明度,增强公众信任。
大数据面临的挑战
虽然大数据前景广阔,但也并非没有挑战。
1. 数据规模庞大:大数据的规模确实很大。尽管已经开发出了新的技术来促进数据存储,但据分析师称,数据量大约每两年就会翻一番。那些难以跟上数据增长速度并找到有效存储方法的组织,无法通过减少数据量来缓解压力。
2. 数据整理困难:仅仅以经济实惠且易于访问的方式存储数据是不够的。数据必须被使用才能体现其价值,而成功的关键在于数据整理。经过整理的数据(即与客户相关且以能够进行有意义分析的方式组织的数据)不会凭空出现。数据整理需要大量的工作。在许多组织中,数据科学家花费 50% 到 80% 的时间来整理和准备数据,以便能够有效地使用这些数据。
3. 数据安全和隐私问题:一旦所有这些数据存储在组织的存储库中,仍然存在两个重大挑战。首先,数据安全和隐私需求将影响 IT 团队管理这些数据的方式。这包括遵守区域 / 行业法规、加密以及对敏感数据的基于角色的访问控制。其次,只有使用数据,数据才会有价值。创建一个数据驱动的文化可能具有挑战性,特别是如果传统政策和长期存在的观念已经融入到组织文化中。新的动态应用程序,如自助式分析,几乎可以改变任何部门的工作方式,但 IT 团队必须投入时间和精力进行
教育、熟悉和培训;这是一项长期投资,会带来重大的组织变革,从而获得洞察和优化。
4. 技术更新迅速:大数据技术正在迅速变化。几年前,Apache Hadoop 是用于处理大数据的流行技术。然后在 2014 年推出了 Apache Spark。如今,多种技术的结合在大数据市场上带来了新的突破。跟上技术发展的步伐是一个持续的挑战。
大数据的工作原理
大数据通过提供洞察,揭示新的机会和商业模式来发挥作用。一旦数据被采集,开始分析数据涉及三个关键步骤:
1. 整合:大数据将来自许多不同来源和应用程序的数据汇集在一起。传统的数据整合机制,如提取、转换和加载(ETL)通常无法胜任这项任务。它需要新的策略和技术来分析TB甚至PB规模的大数据集。在整合过程中,您需要引入数据、处理数据,并确保数据的格式正确,可供业务分析师使用。
2. 管理:大数据需要存储。您的存储解决方案可以在云端、本地或两者兼有。您可以以任何您想要的形式存储数据,并根据需要将所需的处理要求和必要的处理引擎应用于这些数据集。许多人根据他们的数据目前所在的位置选择存储解决方案。数据湖正逐渐受到欢迎,因为它支持您当前的计算需求,并使您能够根据需要启动资源。
3. 分析:当您对数据进行分析并采取行动时,对大数据的投资就会得到回报。对各种不同的数据集进行可视化分析,能让您获得新的清晰认识。进一步探索数据以发现新的信息。与他人分享您的发现。使用机器学习和人工智能构建数据模型。让数据为您的组织服务。
大数据的最佳实践
为了帮助您在大数据的道路上前行,我们整理了一些关键的最佳实践,供您参考。以下是我们为构建成功的大数据基础提供的指导方针:
1. 使大数据与特定业务目标保持一致:更广泛的数据集使您能够有新的发现。为此,在强大的业务驱动背景下,对技能、组织或基础设施进行新的投资非常重要,以确保项目的持续投资和资金支持。要确定您是否走在正确的轨道上,问问自己大数据如何支持并实现您的首要业务和 IT 优先事项。例如,了解如何过滤网络日志以了解电子商务行为,从社交媒体和客户支持互动中得出情绪倾向,以及理解统计相关方法及其与客户、产品、制造和工程数据的相关性。
2. 通过标准和治理缓解技能短缺问题:从大数据投资中获益的最大障碍之一是缺乏足够具备必要数据分析技能的员工。您可以通过确保将大数据技术、考虑因素和决策纳入您的 IT 治理计划来降低这种风险。标准化您的方法将使您能够管理成本并利用资源。实施大数据解决方案和策略的组织应该尽早且经常评估其技能需求,并主动识别任何潜在的技能差距。这些差距可以通过培训 / 交叉培训现有人员、招聘新人员以及利用咨询公司来解决。
3. 通过卓越中心优化知识转移:使用卓越中心的方法来共享知识、控制监督并管理项目沟通。无论大数据是新的投资还是正在扩大的投资,软成本和硬成本都可以在整个企业中分摊。利用这种方法可以帮助以更结构化和系统的方式提高大数据能力和整体信息架构的成熟度。
4. 最大的回报是将非结构化数据与结构化数据相结合:单独分析大数据当然是有价值的。但是,通过将低密度的大数据与您目前已经在使用的结构化数据连接和整合,您可以获得更深入的商业洞察。无论您是在收集客户、产品、设备还是环境大数据,目标都是为您的核心主数据和分析摘要添加更多相关的数据点,从而得出更好的结论。例如,区分所有客户的情绪和仅区分最佳客户的情绪是有区别的。这就是为什么许多人将大数据视为其现有商业智能能力、数据仓库平台和信息架构的一个重要扩展。请记住,大数据分析过程和模型可以是基于人工的,也可以是基于机器的。大数据分析能力包括统计学、空间分析、语义学、交互式发现和可视化。使用分析模型,您可以关联不同类型和来源的数据,以建立联系并做出有意义的发现。
5. 为性能规划您的发现实验室:在数据中发现意义并不总是一帆风顺的。有时我们甚至不知道自己在寻找什么。这是可以预料的。管理层和 IT 部门需要支持这种方向不明确或需求不清晰的情况。同时,分析师和数据科学家与业务部门密切合作,了解关键的业务知识差距和需求也很重要。为了适应数据的交互式探索和统计算法的实验,您需要高性能的工作区域。确保沙盒环境得到所需的支持,并受到适当的管理。
6. 与云运营模式保持一致:大数据处理和用户需要访问广泛的资源,以进行迭代实验和运行生产作业。大数据解决方案包括所有数据领域,包括事务数据、主数据、参考数据和汇总数据。应按需创建分析沙盒。资源管理对于确保控制整个数据流至关重要,包括预处理和后处理、集成、数据库内汇总以及分析建模。精心规划的私有云和公有云配置和安全策略在支持这些不断变化的需求方面起着不可或缺的作用。
总结
大数据的大量性、高速性和多样性使得从中提取有意义的洞察和可行的情报具有挑战性。但是,那些投资于从数据中提取有价值信息所需的工具和专业知识的公司,可以发现大量的洞察,使决策者能够基于事实而不是猜测来制定战略。