文章发表于2025-03-27 09:26:12,归属【科技前沿】分类,已有47人阅读
数据分类(按相关类别管理数据)应该是企业更大的数据管理战略的关键部分。对数据进行标记可以使其更易于搜索,从而更有用。它还可以消除重复数据,这减少了存储需求和成本,并提高了查询和分析的速度。分类错误的数据会提供不准确的结果,并且当由于标记错误而被错误地公开时,可能会导致安全事件。
从历史上看,组织在数据分类方面往往比较宽松,这很快就会产生问题,并导致数据分散、生产力损失和安全问题。但随着数据对企业变得越来越重要,且数据大量累积,组织已开始将数据分类视为其数据管理工作的一个支柱。以下是 2025 年数据分类的六大顶级趋势。
1. 人工智能推动数据分类工作
2025 年是人工智能取得显著成就的一年,数据科学领域和大多数行业一样,已开始从中受益。传统的数据分类系统实施起来颇具难度,且缺乏基于上下文进行分类的能力,而新的解决方案利用人工智能将内容感知和上下文分析融入到数据的分类和排序中。
由人工智能驱动的数据分类自动化可以帮助公司以前所未有的规模对非结构化数据进行分析和标记,而且只需极少的人工干预。这使组织能够更快速地对更多数据进行分类。同时,这也让他们能够避开行业内合格人员短缺的问题。
人工智能还能让数据负责人切实了解不同用户对数据的使用、共享和处理方式,便于标记可疑数据。
2. 更多的数据法规正在实施和执行
随着越来越多的数据泄露事件曝光,尤其是在关键基础设施领域,各国政府已开始对违反数据管理和本地化原则的科技公司加强监管。新的数据隐私法摒弃了基于损害的处理方式(即预防和惩罚对消费者数据的侵犯行为),转而采用基于权利的方式,让个人能够掌控自己的数据如何被管理、使用和处理。
欧盟目前正在依据《通用数据保护条例》(GDPR)开展其规模最大的跨境调查,并对那些纵容数据攻击行为的成员国采取行动。虽然美国在历史上对组织收集和分类数据的方式较为宽松,但这种情况可能正在改变 —— 在具有里程碑意义的《加利福尼亚消费者隐私法案》(CCPA)通过后,包括科罗拉多州、犹他州和弗吉尼亚州在内的其他州也纷纷推行类似的立法。
诸如《国家网络安全战略》、《格拉姆 - 里奇 - 比利雷法案》(GLBA)和《家庭教育权利和隐私法案》(FERPA)等其他政策,将在美国设立多个联邦监管机构,以监督数据治理政策的实施,并在整个数据生命周期管理中协助进行数据的分类、使用和存档工作。
3. 更先进的技术使数据分类更有效
技术正推动着新一轮的数据民主化浪潮,提供更简单的访问控制、更安全的传输方式以及更大程度的去中心化。处于前沿的是数据织物(它将元数据整合在一起以辅助数据分类)和数据网格(它通过让生成数据的团队承担责任来减少信息孤岛并有助于数据治理)的集成。
这些技术的结合帮助公司处理来自多个来源的数据,能够更快地得出见解,并为所有利益相关者创建一个无阻碍的网络,以便他们与已处理的数据进行交互。它还有助于构建一个自主的、覆盖全公司的数据分类和覆盖接口,为碎片化的数据集提供自助访问服务。
企业通过在无需移动数据的情况下对数据进行分类,并创建一个数据抽象层,可将运营成本降低多达 400%。企业还可以通过改进数据访问和智能查询升级来管理其安全态势,从而构建自上而下的数据服务。
4. 零信任数据隐私库被用于存储敏感数据
数据分类计划还必须通过对关键数据集进行去标识化处理,并仅公开完成任务所需的信息,来保护机密和受限数据。随着科技公司面临监管机构更高的合规要求,隐私库作为一种备受关注的解决方案正日益受到重视。零信任库通过提供一个可控的环境来保护敏感数据,从而缓解了对个人身份信息(PII)合规性的担忧。
大多数隐私库使用多态加密、双因素身份验证和定期数据审计来检测漏洞,确保客户数据不受攻击。它们还使政府和企业能够通过对机密数据集进行编辑、对敏感信息进行标记化处理,以及限制像 ChatGPT 这样的大型语言模型(LLM)中个人数据的流动,在大型科技公司中共同实现隐私设计。
隐私库在制药领域尤其受欢迎,因为在药物的整个生命周期中,专利研究数据必须得到保护。
5. 非结构化数据助力商业智能
非结构化数据,例如电子邮件、短信和多媒体内容等,给数据分类带来了特殊的挑战。它就像是宇宙中的暗物质,难以检测,而且大多无法进行分析,但它在企业收集和使用的数据中却占了很大一部分。
对非结构化数据的关注度日益增加,这是由企业在激烈竞争的市场中面临的时间紧迫问题所驱动的。他们必须更快地为数据管道提供数据,只移动他们需要且已分类的数据,并消除手动查找已分类数据集的工作。
找到处理和分类非结构化数据的方法可以提高存储容量,提供一种基于数据的方式来衡量消费者体验,并更好地理解用户情绪。
6. 公司正在评估风险以防止影子访问
影子访问,即对数据集的意外、未经邀请且未被察觉的访问,是拥有大量分类不当数据的企业面临的一种日益被利用的风险。随着越来越多的数据存储和共享在云端进行,这种风险预计只会不断增加。
大约 80% 的数据泄露事件是由于现有的凭据问题导致的 —— 员工有意或无意地共享机密信息,或者访问未经授权的应用程序和云服务。由于个人领域和职业领域的界限日益模糊,以及云身份的复杂性不断增加,影子访问已成为一个更加棘手的问题。
因为你无法保护你所不知道的东西,所以评估影子访问风险的新工具正受到数据负责人的关注。这些工具使他们能够识别易受安全风险影响的数据类型,并采取必要的措施来降低这些风险。
总结
随着企业竞相创建数据安全的环境,其数据分类政策将越来越成为一个差异化因素。目前,数据分类领域正处于变化之中,这是由生成式人工智能的出现、对客户体验的更高要求以及数据分散带来的成长烦恼所推动的。但是,那些利用这些创新来加强其数据分类工作以及更大范围的数据管理战略的组织,将顺应这一潮流,迈向一个更成功、更安全且更具可操作性的数据未来。