然而到了今天,存储行业的现实状况并不乐观。
一方面,大数据发展的潮流不断地全速前进。尽管企业对于大数据的Volume(大批量)、Velocity(高速传递)、Variety(多样性)等特征一直保持着高度的兴致,但企业对于大数据技术的采用率仍然很低,主要仍集中在实验阶段。同时,一些大数据初创企业继续吸引着大量的资金,并认为这些大数据的赌博会让他们完好无损。
大数据存储没什么大不了的
而另一方面,尽管市场似乎已经为广大的存储企业带来了明显的理想优势,但存储企业并没有充分融入到大数据发展的潮流中,尽管其中也不乏一些企业在朝着这方面努力。在过去的几年中,我们已经看到许多存储企业投资于该领域——包括技术方面以及纯营销方面,以便随着大数据发展的趋势而进行自身的调整。
在技术方面,大部分都倾向于相信大多数存储企业均擅长于高效地存储和保护大量数据——能够十拿九稳的战胜那些部署Hadoop的企业。
当您企业的数据中心可能已经有了价值数百万美元的专用存储设备,也具备相关的专业知识时,为什么要在Hadoop中依靠相当有限的数据存储模型呢?因此,存储行业的巨头如EMC、赛门铁克和IBM,以及一些较小存储供应商如Cleversafe,曾将他们的软件技术与Hadoop进行整合。
但是,这些方面的努力对于促进企业用户采用大数据技术方面的收效甚微。当然,我们也可以看到某些极个别采用了大数据技术的案例,但到目前为止,存储行业并未能找到一种能够很好的融入大数据的方式。在我们与长期运行Hadoop社区的广泛对话中,我们被告知无论是分销商和终端用户都从未提及过关于存储的话题。其根本就不被视为一个问题。
这种与大数据相关的明显的矛盾,也明显存在于我们对于最终用户调研中。
当我们在采访一些大中型企业的存储专业人士关于其所在企业就大数据解决方案方面的投资计划时,四分之一的受访者表示说他们已经在这方面有了投资,而有40%的受访者则表示他们没有这方面的计划。其余的14%的受访者表示他们已经制定了在大数据方面的投资计划,有13%的受访者说他们未来可能会制定大数据投资计划。
许多企业受访者告诉我们,他们处理大数据存储的方式是通过利用现有的SAN。而这些企业表示,连续两年的大数据运行仅占其总存储的3%。
大数据并不在数据中心
显然,这有一些混乱。但这对于一个在短期内被以惊人的程度大量使用,甚至是滥用的术语而言并不奇怪。询问一名存储专业人士关于如何看待大数据,他们脑海中所思考的大数据可能与数据科学家们的想象有很大的不同。
但是,让我们来分析一些最为真实的大数据倡议吧(最典型的是基于Hadoop的项目),其并不在数据中心的核心运行。其运行在一个特设的个别部门的基础实验,如工程,产品开发和市场营销。
核心的IT部门可能甚至都不知道有这样的项目正在进行中。在这样的情况下,很容易了解到为什么存储不受重视;重要的是,存储的成本是很便宜的而且也易于使用。成本昂贵且难以管理的外部系统,如SAN和NAS被视为矫枉过正的DAS规则。
虽然我们并不指望能够在短时间内会发生大的变化,但围绕Hadoop项目长期存在的一个问题是,当其达到一定的规模,成熟度和重要性时,有必要把他们交付给IT部门来管理。
大数据存储的前景
是否已经有关于大数据存储发展的一些迹象了呢?是的,但其仍然处于早期。当我们在采访存储专业人士关于驱动数据增长的因素的话题时,14%的受访者说:“虽然我们已经注意到大数据(先进的分析技术)正受到许多数据类型/应用程序快速增长的影响。但其优先级仍然被排在了许多更为紧迫的问题之后,如服务器虚拟化和满足新的和现有的业务应用程序的需要。
与此同时,一些供应商也开始了一些独辟蹊径的思路思考如何增加价值。如希捷公司的Kinetic开放存储平台,通过一个键值存储实现以太网功能的硬盘,开辟了非常简单的大规模存储系统,可以作为大数据和基于对象的应用程序具有成本效益的后端。
EMC采取了稍微不同的策略,将其VIPR产品作为一款平台,可以从一个单一的界面管理多款应用程序和存储环境。虽然其最初是将重点放在传统的存储协议如文件和存储块等,现在也支持对象存储,并也能够管理Hadoop环境。
其他的一些存储企业也采取了一些类似的举措,例如Scality和Inktank将文件和对象存储功能集成到一个平台,部分原因是由于大量非结构化数据驻留在一个共同的存储库是奏效的,而不管实际的数据访问方法。
事实上,这些厂商认为集中管理最终将有助于IT经理。大数据,无论是Hadoop或其他技术的变形,毕竟都只是另一种数据类型,都应该以同样的方式对待。
很多IT部门所面临的一大挑战是,存储已经分散到太多的筒仓领域,而大数据的风险在于,其正成为另一个独立于一切的数据孤岛,并进一步加剧了整体管理成本。
在这种情况下,我们给存储厂商的建议是提出了一些创新的技术解决方案。不幸的是,到目前为止的现实状况是,这些方法是远远领先于市场的,并在很大程度上已经成为一个寻找问题的解决方案。
尽管如此,我们仍然乐观的认为存储最终将在整个大数据领域发挥更突出的作用,但其确切的性质和时间表仍有待确定。