如今的数据量之大让人叹为观止,并且这一数字还在呈指数级增长。当下,互联网+推动了数据爆炸,非结构化数据量也在以更快的速度增长并占据整个数据比例的80%以上。面对海量数据,IBM认为管理和分析已到达转型的临界点。
突破数据临界点 引领认知新时代
IBM副总裁、大中华区硬件系统部总经理高璐华表示,现在市场上大家谈得最多的就是数据和认知。IBM在过去这几十年来是怎么看数据? 从60年代开始,IBM从最早的打卡机或者是制表机开始做,第一次应用就是在美国的人口普查。然后到了80年代,IBM刚开始推出了个人电脑处理数据,到了1997年,IBM的“深蓝”跟国际象棋的棋王卡斯帕罗夫比赛,并且战胜棋王;从那时起,更多的人谈的就是如何用数据,更好的认知。到了2011年,IBM Watson认知系统,在美国的节目《危险边缘》里与多个冠军对手进行比较,并战胜了他们,所以当时就开启了认知的新时代。
如今,与几十年前处理的数据完全不一样。2014年,中国市场智能手机出货量就已经超过了4.2亿部,并且这个数据在成倍增长;现在每天有2亿封的Email被寄出。我们认为2020年全球的数据总量会达到40ZB。到2019年,大数据的存储容量需求在2019年将达到20EB,其存储设备的价值会达到27亿美金,所以大家可以看到,数据不再只是数据,它是有价值的一些资讯,可以给行业、企业的高管们做很多的分析和洞察,所以一点都不夸张,数据的临界点真的来了。
据了解,关于认知,IBM去年就已经发布了关于认知计算或者认知商业的概念和想法,并认为未来认知会引领整个时代和潮流。认知商业可以从三个部分来看,第一个部分是认知,就是如何在业务层应用认知的技能;第二个部分是学习,Watson经过不断进行学习之后,它能够针对一些结果产生一些疑问,并有有一些回馈,对答案进行一些筛选;第三个部分是分析,相关数据和Watson的数据结合起来以后,我们可以做更多更好的分析,得到一些很有价值的结果。
同时高璐华提到,要具备这样的能力其实很困难,机器能够理解人类的语言,理解以后还能够学习,学习以后还要加强、优化,那它就必须要有一个很好的基础建设。而这个基础建设最好的架构就是混合云的架构。混合云可以从原有的系统里面整合交互的系统,可以做更好的横向整合,同时我们也可以整合整个系统,提供更好的实时、准确的资讯。
面对浩如烟海的海量数据,用户对数据的要求也越来越多,如此繁杂冗多的数据,哪些有用?如何快速获取?获取之后如何保存?甚至做分析、决策,这些才是我们要解决的难题以及行业发展亟须面对的痛点。
数据的爆发性增长,使得传统的数据存储和管理方式已经不能满足企业发展和创新的需要。今天,面临更复杂的数据环境,难上加难的数据需求,真正的数据临界点到来。数据临界点不仅仅指海量的数据,同时也是对数据的需求。对此,高璐华表示IBM将会不断引领新的潮流,以满足用户对数据的快速、安全可靠的访问、分析和处理,帮助企业实现数字化转型和迎接认知时代。
把握市场“风口” 大数据存储正当时
大数据存储目前有什么样的挑战呢?下一步有什么样的发展呢?IBM全球存储系统研究院院长Larry Chiu表示,在过去的5年到10年当中,大量的结构化数据被创造出来,到2020年,人类产生的数据总量将达到40ZB这可以说是一个临界点。这些新的数据来自智能手机、传感器收集的数据,以及物联网等,这些应用会驱动数据爆炸性的增长。
认知计算的应用有很多不同的类型,如快数据,比如股票交易,这些数据是全速产生,包括探测欺诈行为,交易问题。从快数据的角度来说,我们需要弄清楚很多信息;从存储的角度来说,需要每秒执行超过1000多万次的小型的持续操作。当系统探测到存在欺诈问题,数据库里可以生成一些新的数据,我们把所有的数据存储起来,但这样做成本很高。从存储角度怎么解决这些问题呢?我们使用本地的一些文档系统,把这些功能移到用户端,消除了文档系统的堆栈,可以达到差不多10倍的性能提升,这是未来的发展方向。
从数据角度来说,对于这些数据不同版本的对比,会了解用户在2014、2015和2016年发生了哪些变化,把这些数据加以汇集,放到对象存储里面,随着时间推移,你可以查询这些数据,按照时间点,从2014年到2016年进行对比,我们可以了解发生了变化,提高它的使用率。
至于挖掘到各种数据之后,进行相应查询,如果这个数据并没有一个非常好的组织结构,怎么办?当今很多客户都会遇到类似问题,他们的数据中心没有很好的组织结构。典型的问题是什么呢?我无法有很多的存储空间来存储所有的数据,这是一个问题。另外一个问题,他要存储数据,但是他不知道应该把哪个对象、哪个文档提取出来。
另外值得一提的是区块链的技术,这是一种新的方式,这种方式是进行系统的记录。区块链是一种新的记录的系统,就像一个分类记帐本。当数据进入到这个系统之后,这个数据应该是不变的,而且是可以审计的,这是第一点。第二点就是保留长期的存储可扩展性,也就是说数据要不断地扩展,需要放在区块链的网络上,把它作为一种数字化的资产。另外这个数据能够保留10年甚至10年以上的时间,来验证数据的高可用性,还有一点就是需要考虑到存储性能,它能够解决事务和数据仓库的功能。如果从基础设施的角度来看,这些数据要更加的可靠,而且能够更好地持续下去,不能出现丢失的问题,要提升存储的性能。
据Larry Chiu介绍,IBM在欧洲就在着手一个叫做SKA(Square Kilometer Array)的项目— “极端大数据”,如宇宙当中存在很多迹象,我们就要分析这个迹象,看看这个迹象背后代表的价值,我们做这个事情就是要进行分析,比如说每天生成多少数据,对数据进行处理,比如说一秒能够生成10PB的数据,每一天产生14EB的数据,我们需要对这些数据进行处理和分析。14EB大概相当于1500万个64GB的ipod的存储量,我们怎么把这样大量的数据进行分析呢?我们面对这样大量的数据,我们该怎么样进行分析?我们需要看一看这些数据,而且我们需要朝着这样的一个方向去努力,我们需要对这些数据的价值进行定义,我们需要假设数据如何帮助我们,来对我们搜集的这些数据的相关信息进行组织。我想这是一个征程,我们需要做好这项工作。我们要有认知,我们要学习,我们要进行改善,从而能够从我们已知的内容当中去推算未知的知识,这样一个过程需要10年以上的时间,当然有些新的应用也将会研发出来。
“数据的爆炸式增长使得驾驭这些数据获取商业洞察成为一种新的竞争优势。从存储和分析大量小规模快速产生的数据开始,到存储和分析来自数十亿互联网设备的数据,再到加速采用对象存储,直到存储和分析广袤的数据宇宙, IBM正持续推进创新,研发具有突破性的存储技术,助力各行业突破数据临界点。”IBM全球存储系统研究院院长Larry Chiu对此很有信心。
认知商业进驻中国,加速市场生态发展
IBM大中华区硬件系统部存储系统部总经理黄永志表示,从临界点到认知这个观点,从三个维度来看叫做3D,第一个D是数据。数据的爆发规模非常大,80%的非结构化数据在迅速的膨胀,这是以人类历史上都没预见过的速度在增长。从数据的结构、性质和越来越多不同的传感器的出现,还有很多意想不到的新的介质加入的时候,这个数据流量的爆发是不可思议的,所以从数据本质来看,将会出现非常大的变化,而且变化越来越快。第二个D是需求。每个人的需求都会出现变化,三年前的数据要求和今天的数据要求就决然不同,这绝对是从量到质的惊人变化;对行业来说压力也是如此,今天的银行业跟5年前相比也是另外一个世界。所以在需求上的剧烈的改变,也是我们要去面对的。第三个D是定义。在存储市场,存储在技术定义上也有很大改变,在数据大量膨胀的时候,我们基本上是要革自己的命,才能应付这个要求,所以存储的定义也是在不断地改变,所有的属性都会引领我们怎么跨越这个临界点,怎么去到认知的年代。几年前IBM都是集中在讲产品,到现如今我们都是讲怎么用、怎么转型、怎么管理数据为出发点,所以这个定义是非常不一样的。在这个定义里面,如果我们更加落地的说,我们觉得有两个技术是非常重要的,从IBM的观点来说,未来的12到18个月,这两个技术将会改变业界,改变很多商业模型。一个是闪存,一个是软件定义,这两个技术将会改变一切。
未来非结构化数据将会是以PB的量级增长的,在中国肯定会有客户的数据超过EB级的,当你超过EB级的时候,你的管理跟今天是两回事,如果没有一套很好的安全性很强系统,这将会带来很大的灾难。
“互联网+”时代的到来以及物联网的不断发展,产生了大规模的非结构化数据,站在今天这个临界点,我们要找准方向持续的投入、持续的创新、持续的共建,把数据创造更高的价值,为这个认知的时代带来更加美好的基础。