商务咨询

13020133833

技术支持

18621663782

您的反馈是我们前行的动力

你了解“暗数据”吗?

文章发表于2020-12-20 10:11:12,归属【信息安全】分类,已有1988人阅读

信息安全

暗数据或“尘埃数据”是由所有冗余的、经常被遗忘的数据组成的,这些数据是公司和组织在其活动过程中收集的,但随后又不使用。这些信息是无结构、无标记、无分析的信息,往往只存在于网络和服务器中,占据了宝贵的空间。那么,这些暗数据是如何积累的,又该如何加以利用呢?

暗数据的收集方式多种多样。它可能包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。暗数据还可能包括由于存储在过时设备上而无法再访问的数据。

暗数据主要有三种类型:

  • 第一种是传统的基于文本的数据。这可能包括电子邮件,日志和文档。
  • 第二种类型是非传统数据。这包括未标记的音频和视频文件、静止图像和声音文件。这种类型的暗数据无法通过传统分析技术进行分析,需要人工智能进行分析,如计算机视觉、模式和面部识别。例如,视频分析软件现在可以浏览图像和视频,并标记特定的元素,如猫、生日蛋糕、椅子等。然后可以搜索标记过的图像,以找到特定的特征,并记录它们出现的频率和地点,从而将暗数据转换为一种可用的形式。
  • 第三种类型是深度数据。这包括深层网络中搜索引擎无法触及的信息。这些深度数据大多是私有的,由政府或私人机构控制。它包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库。


保持暗数据可能会给组织带来隐患。存储的数据可以保存公司可能不知道的敏感信息,包括专有信息和员工和客户的个人信息。当一个组织不知道它拥有什么数据时,就很难保护它。存储如此多的数据也会导致更高的成本。企业也可能违反数据遵从性法律法规,这些法律法规要求加强对某些类型的数据的保护。如果一个组织不知道它拥有什么数据,这可能会导致法规遵循监视成本和费用的增加。

另一方面,暗数据可能被证明是一种有价值的资产。它可以保存不能以任何其他格式获得的信息。深度学习和人工智能开始为企业提供提取和货币化这些数据的新希望。新的数据提取工具包括斯坦福大学(Stanford University)开发的DeepDive和Snorkel,以及使用IBM沃森技术从视频中提取暗数据的技术演示应用Dark Vision。

Springwise最近开发了一种面部识别系统,可以捕捉现场的情绪,以及一种为零售商收集步数数据并使其易于获取的系统。这样的创新可以让大数据更容易使用,从而有助于减少“暗数据”的数量。