文章发表于2020-12-20 10:11:12,归属【信息安全】分类,已有1988人阅读
暗数据或“尘埃数据”是由所有冗余的、经常被遗忘的数据组成的,这些数据是公司和组织在其活动过程中收集的,但随后又不使用。这些信息是无结构、无标记、无分析的信息,往往只存在于网络和服务器中,占据了宝贵的空间。那么,这些暗数据是如何积累的,又该如何加以利用呢?
暗数据的收集方式多种多样。它可能包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。暗数据还可能包括由于存储在过时设备上而无法再访问的数据。
暗数据主要有三种类型:
保持暗数据可能会给组织带来隐患。存储的数据可以保存公司可能不知道的敏感信息,包括专有信息和员工和客户的个人信息。当一个组织不知道它拥有什么数据时,就很难保护它。存储如此多的数据也会导致更高的成本。企业也可能违反数据遵从性法律法规,这些法律法规要求加强对某些类型的数据的保护。如果一个组织不知道它拥有什么数据,这可能会导致法规遵循监视成本和费用的增加。
另一方面,暗数据可能被证明是一种有价值的资产。它可以保存不能以任何其他格式获得的信息。深度学习和人工智能开始为企业提供提取和货币化这些数据的新希望。新的数据提取工具包括斯坦福大学(Stanford University)开发的DeepDive和Snorkel,以及使用IBM沃森技术从视频中提取暗数据的技术演示应用Dark Vision。
Springwise最近开发了一种面部识别系统,可以捕捉现场的情绪,以及一种为零售商收集步数数据并使其易于获取的系统。这样的创新可以让大数据更容易使用,从而有助于减少“暗数据”的数量。