技术博客 > 正文

被称为“数据石油”的非结构化数据,为何深陷存储困境?

2023-02-24

随着互联网技术的日新月异,内容数据逐渐在各行各业中占据着不可替代的地位。尤其是那些在日常业务过程中,需要处理的大量电子文档、图片、音频、视频的企业,其内容数据的产生和应用都是呈指数级、爆炸式增长的。而在这之中,相较于结构化数据这种便于存储和应用的数据,非结构化数据却占据着总数据量的80%,是被公认的“数据石油”,但这个量级庞大、价值潜力巨大的数据资源,其存储却是诸多企业目前不得不面对的困境。

细究其原因,大致可以从以下五点来分析:

一、非结构化数据体量庞大,长期存储TCO过高

非结构化数据究竟能有多大的体量呢?打个不恰当的比方来说,如果结构化数据是工厂生产出来的乒乓球、足球、篮球等一切形态规整的球体,那非结构化数据就是未经雕琢的天然砂砾、石块、巨石、山体,我们可以对经由生产的有形制球体予以计数和保存,却难以将天底下所有砂石进行逐一归类保存。

与达梦数据、人大金仓、东方通等多厂商兼容适配 爱捷云完成信创云全产业链生态布局

非结构化数据占比示意图

所以试想一下,如果一个企业要保存这些源源不断产生着的、形态各不相同、体量巨大的“砂石”,首先就要拥有足够大的“空间”,即存储系统,购买这些存储系统势必产生相应的费用,而在这当中,会因为不同业务系统对性能、稳定可靠性要求不同,甚至有的高性能业务需要单独的全闪,所以需要多套存储才能满足需求,同时,其使用过程中,在价格昂贵的阵列存储过保后,维保费用会越来越高,存储匹配的硬盘更加难找,导致维护成本也居高不下。

二、数据在长期存储过程中,硬盘故障风险难以预测,隐患极大

非结构化数据一般是重要的电子档案、图像、文档等等,需要保存的时间通常会长达10年以上,而这期间硬件的老化带来的风险主要是:超过5年的存储设备会因为停产等原因,配件越来越难找,尤其是硬盘,坏盘无法及时替换,数据丢失风险也会日益增加。另外,硬盘是非稳定性硬件,偶发故障多,不可预测,存储长期运行,硬盘故障率攀升。

三、新老存储设备替换时,非结构化数据迁移困难

在数据设备5年“大限”来临之际,企业会选择将数据从老设备更替到新设备上,而非结构化数据因其自身特性,迁移十分困难,且效率极低、耗时超长,同时在迁移过程中还伴有未知的风险,没有数据完整性和一致性比对的较好方案。

四、非结构化数据增长速度快,存储横向扩容能力差

一般情况下,存储阵列的扩容方式是在机头的基础上增加硬盘框,一个机头可以扩展多个硬盘框,但是只有机头能够连接主机提供服务,5年后无论一个机头在规格上支持几个硬盘框,由于机头寿命稳定性减弱都无法再继续扩容,所以必须购买一套全新的设备,这就导致会出现扩容的非连续性断层,从而进入到又一轮繁琐的业务和数据迁移周期。

五、非结构化数据中的海量小文件,会导致存储系统性能下降严重

海量小文件对存储系统带来最大的危害,在于它会使得文件系统的元数据急剧膨胀,每次进行文件的读写,元数据的访问和操作都会耗时耗力,从而导致存储器产效变低,尤其是在小文件数据达到千万级的情况下,这一性能体验下降就会变得非常明显。

综上所述,被称为“数据石油”的非结构化数据虽是公认的宝贝,但其存储问题得不到妥善解决的话,也只能沦为“无力开采的油田”。

联系我们

联系我们

  • 售前: 400-010-0617
  • 售后: 400-696-3666
线上咨询
合作申请
微信
官方微信