非托管、非结构化数据是否堵塞了企业的主存储?为了控制这种成本高且性能低下的情况,企业需要进行经济高效的管理非结构化数据。
非结构化数据是所有数据中增长速度最快的。根据IDC的数据,它正在以61%的复合年增长率增长,到2025年将占全球数据的80%。对于许多大型IT企业而言,在不久前就已经超过了这一标准。
非结构化数据的增长不再受文件,电子表格,演示文稿,照片,视频和音频等通常文件的驱动。当今其增长背后的动力来自日志,物联网设备,社交媒体,传感器,元数据和搜索引擎查询等。
屠龙者咨询公司的调查显示,企业中的大多数非结构化数据是凉数据(已使用30天以上且不经常访问)或冷数据(已使用90天以上且罕有访问)。但是,它位于昂贵的主存储上,不断消耗预算。
管理非结构化数据的挑战在于如何以既经济又高效的方式实现。非结构化数据不容易分类或建立索引,也不容易存储在传统数据库中。此外,它通常不是源自具备分析能力的数据库,例如JSON数据库、key-value数据库和XML数据库。这意味着这些数据必须被提取,转换并加载到一个有用的数据库中。这是一个劳动密集,耗时且容易出错的过程,需要脚本或外部服务提供商。移动数据还可以创建数据的多个副本,这意味着会有更多的存储空间,机架空间,交换机端口,软件许可证,电源,散热,电缆,收发器,分配的开销和管理员。那么这在经济上没有任何意义。
是否要管理非结构化数据
非结构化数据的常见处理方式是根本不对其进行管理。许多IT商店选择增加其主存储系统的容量,而不是对非结构化数据进行分类,管理,分析甚至归档。他们认为,如果有需要,数据就在那儿,但是可能很难找到。这种方法的问题在于它在财务上是不可持续的,原因有如下几个。
第一个原因是数据会消耗容量---通常是主存储容量。而且,一旦消耗掉了,该容量就无法用于其他数据。主存储是最昂贵的存储,通常由某种类型的闪存SSD介质组成。存储系统软件和许多其它类型的软件(如备份和复制)都是基于容量购买许可或订阅的,这就增加了非结构化数据的成本,即使是非结构化数据未被访问时也是如此。
所有存储系统必须每3-5年更新一次。当一个系统升级,新系统必须包括所有现有的非结构化数据,以及在新系统使用寿命期间存储的任何数据,这就增加了更多的基础设施和成本。同时,需要将数据从旧存储系统迁移到新存储系统。这需要时间、精力、软件或脚本。它消耗的不仅仅是主存储空间,还消耗二级存储,因为所有存储的非结构化数据都必须进行备份。除了备份非结构化数据的成本外,更大的成本是从中断中恢复数据。恢复凉数据和冷数据所花费的时间可能会延迟系统的恢复和运行,这个过时的过程会增加更多成本。
将非结构化数据保存在主存储上造成问题的另一个原因是全球的隐私法律法规,如《加州消费者隐私法》、《欧盟通用数据保护条例》、日本的《个人信息保护法》和泰国的《个人数据保护法》。是否遵从是没有余地可选择的,如果不遵从会产生严重的经济后果。这意味着IT组织必须知道他们所保存的非结构化数据中是否包含个人身份信息(PII)及其内容。
非结构化数据管理工具
管理非结构化数据以优化性能和降低成本的关键是捕获,收集,解析和分析元数据。在某些情况下,例如PII,这意味着需要分析内容本身。有几家公司提供了旨在管理非结构化数据及其成本的产品和服务。这些产品包括Aparavi,InfiniteIO,open source iRODs,Komprise,Spectra Logic StorCycle等。
正确完成非结构化数据管理后,一切都会以良好的方式发生变化。数据从昂贵的主存储中移动,存档或删除,转移到更具成本效益的二级存储,云存储或磁带存储中。数据管理软件根据非结构化数据的特征和性能要求确定将其移动到何处。通过客户端软件,符号链接,全局名称空间或它们的组合来维护访问。
这些智能和自主的数据管理系统具有访问和分类非结构化数据的不同方法。他们使用管理特权(iROD,Komprise,Spectra Logic,Starfish,StrongBox)安装文件或对象存储,看起来像交换机一样位于数据路径中(InfiniteIO),或者运行在捕获元数据的计算系统中(Aparavi),对内容进行分类,复制,移动,归档和删除数据。这样可以减少在主存储中消耗的容量以及在二级存储中备份或复制的数据。
如何选择非结构化数据管理系统
将数据从昂贵的主存储转移到成本较低的存储后,可以轻松访问它们,而无需重新存储原始存储中的数据。它对数据进行分类,实现基于策略的移动和存储,并使存储系统商品化。
选择最佳的智能或自主非结构化数据管理系统需要知识和研究。企业需要回答以下五个有关企业的需求和正在寻找的产品的问题:
1、随着时间的推移,将移动或迁移多少数据?
2、是否需要元数据和数据索引?
3、需要哪些级别的可扩缩性和性能?需要一个可扩展至艾字节的系统,还是一个PB级的系统就足够了?
4、希望管理系统的自动化程度,简单性和直观性如何?
5、最后,每个系统如何获得许可或订阅?虽然其中大多数都是按每太字节收费的,但收费标准取决于运行该软件的物理机或虚拟机中的内核数。这关系到总拥有成本。
如果做得好,管理非结构化数据的总成本应该低于以前的完全不管理的方法。