近日,IPF2021在苏州隆重举办,会上浪潮存储产品线总经理李辉与华中科技大学武汉国家光电研究中心教授、博士生导师谢长生围绕“从图灵机视角看存储产业发展”进行了圆桌对话,对话由百易传媒(DOIT)总编宋家雨主持。
“十四五”时期,数字经济推动智算中心加速普及和升级,对计算、存储能力的需求将出现巨大的飞跃。与中国数字经济遥相呼应,浪潮存储业务正迎来爆发式增长,根据IDC最新报告,浪潮存储2020年销售额和销量分别为26亿元和2.4万台,增速为70%和96%,浪潮存储全年市场销量跃居中国前二、增速第一。那么从理论和实践两个维度来看,图灵理论对数据存储产业发展有怎样启示,一路奔跑的存储厂商如何在十四五期间再创新高?本次圆桌访谈,浪潮存储联袂学术大咖,就上述问题展开深入讨论。
圆桌访谈嘉宾:宋家雨、谢长生、李辉(从左至右)以下为学术专家与浪潮存储嘉宾圆桌对话摘录:
从图灵理论 看存算协同
主持人:图灵理论是1936年由数学家图灵提出来的,我们今天整个存储、计算的基础仍然是图灵机这样一个模型,以计算作为处理的核心,以数据存储作为存储的核心,要求计算和存储要协同发展。但是发展到今天,最新的技术进展到什么地步了呢?
谢长生:现在商用的计算系统都在图灵机的框架下,这是它的原理之根。从图灵机模型可以直观看出计算机实际就是计算、存储、传输三个部分,存储可以形象地认为它就是那根无限长的带子,其中隐含的信息就是存储容量越大越好,数据存储和传输速度要跟得上处理的速度。因此,图灵从理论上告诉我们,存储第一要大,第二要快。只要我们能够有无限的算力、无限的数据,我们就能计算整个世界。
计算跟存储要协同发展,算力在一直前进,数据存储也要在容量和性能上能够跟计算匹配,并驾齐驱。特别是现在AI、云计算都要非常大的算力,应用跑得快了以后我们存储就得要跟上,过去存储速度跟不上,所以我们采取了各种各样的新技术、新器件、新结构,就是为了让存储跟得上应用的数据处理速度。
主持人:计算和存储的协同,目前是不是已经达到一种比较令人满意的状态?
李辉:在当前人工智能计算应用下,我们的存储是够用的,但是随着新的人工智能模型演进,硅级计算接近碳级计算、类脑接近人脑的话,无论是计算还是存储都有很大的空间等着我们去探索和提升。像在新型人工智能模型 GPT-3这里面,模型参数已经达到100多个亿,但我们要达到类脑计算的效果,模型参数要到几百万亿,数据存储的容量、性能还要有比较大的提高。
谢长生:应用在推动我们技术的发展。因为应用的要求是越来越高,刚把它满足,又有新的挑战出来了,所以技术的进步总是有市场驱动力在驱动。
李辉:从存储技术发展来看,过去存储系统内部的瓶颈在介质上,现在介质已经把瓶颈突破了;目前的瓶颈是在传输和网络上。无论是节点内高速的处理,还是节点间海量的数据同步,我们都需要做更多的工作,像PCIe、100G以太网技术的进步正在突破传输的瓶颈。
场景共同体 汇聚“产学研用”各方力量
主持人:本次IPF2021大会上,浪潮存储提出了“场景共同体”的倡议。我们如何理解这个概念呢?
谢长生:教科书里有一个思路,叫“加快经常性事件”,经常性的事件就是场景特定的、相关的。不同的场景,经常发生的事情是不一样的,把资源放到这个特定场景去优化以后,加速效果是最好的。浪潮存储提出来的以场景为特色的应用,和我们教科书上的在哲学思想上是一样的,就是加快经常性事件。
计算机体系结构领域获得图灵奖的一位教授,帕特森,是RISC的发明人,又是磁盘阵列的发明人,他现在提出一个新的概念叫“域特定的架构”,Domain-Specific Architecture,就是说用资源加强特定领域,就能得到最好的效果,这和场景化的哲学思想是一样的,但浪潮提出来的场景化的概念,更加接近于老百姓的理解。
李辉:是的,场景共同体这个概念,我们主要是考虑海量非结构化数据、超大规模应用场景的新需求。过去我们接触的非结构化数据常见场景是高性能计算,现在演进到智慧计算,智慧交通、医学影像、金融大数据、互联网短视频等应用场景里都有非常多的非结构化数据。这些新应用场景对数据的流动、处理,有各自独特的需求,所以我们提出了一个概念 -- 场景共同体,就是在通用产品上通过产品定制、技术创新,来更好的满足新应用场景对数据存储的要求。
主持人:场景共同体的构建,需要“产学研用”各方力量的汇聚,这种汇聚会产生什么价值呢?
谢长生:产学研结合实际上很早就在提,早期的产学研合作层次比较低,但是经过二十年发展以后,我们的企业变强大了,学术界的研究水平也提高了,可以在国际前沿上做出我们自己创新的东西来,这样产学研合作就能达到一个更高的水平。我们跟浪潮存储几年前还合作过一项经费达两个亿的重大专项,就产生了自主创新的成果。
李辉:我们跟华中科技大学在2009年合作了一个课题,叫超大规模海量存储。在课题当中,我们在海量存储体系结构上有了一些突破,探索在分布式的体系结构下我们怎么去解决容量、性能、可靠性的问题,这些成果为我们传统集中式存储和在新兴分布式存储的产品创新、产品工程化、市场化的商业运作奠定了很好的技术基础。
谢长生:现在我们的企业已经在国际上有很强的竞争力了,有些领域已经进入无人区,再往前怎么走,就要靠自己探路。这个时候企业和大学的结合是非常有好处的,因为学校可能就是不断去探索前沿,看一些新方向,企业有大量的应用需求,会提出很多真问题来。这样我们结合,比过去是更高层次的合作,就可以产生一些新的,甚至可以超越国外的产品。我相信我们国家产学研结合可以走向一个更高的阶段,而且可以做出一些世界领先的东西。
李辉:谢老师提的那些,我非常有感触。我们现在国内在学术界、高校、研究所有很多东西走在了前面,在基础技术研究、新技术方向、算法、协议方面有很多突破,包括像谢老师在光存储、在体系结构上的突破。面对科研先行的探索,企业是来做接力棒的,我们要把科研领域的创新和突破拿到我们的产品上,在工程上去尝试、应用,把技术落地到产品上,最终能够到达我们的用户,到达产业界。
谢长生:形成一个产学研真正的循环。
主持人:据了解浪潮存储和华中科技大学之间就异构存储方面目前正在合作,能不能给我们披露一些情况?
谢长生:现在新介质越来越多,但没有一种介质它是又大又快又便宜的,有的是非常快但非常贵,有的是很便宜但又很慢。所以我们讲异构融合,那就是说存储里要用不同的介质来构成一个系统,总体呈现出来的是速度高、容量大、比较便宜的这样一个虚拟的存储系统。我们在这方面做了很多研究,我想浪潮存储很多产品都是用的这种思想。
浪潮全闪存储HF系列李辉:是,我们跟华中科技大学的合作成果在我们第二代全闪存储上就开始了,我们第二代全闪存储称之为HF系列,我们去年发布,今年已经量产。HF系列继承了我们的合作成果,实现了3D XPoint跟3D TLC、MLC介质的融合,为存储系统带来非常高的性能。
基于场景共同体 实现产品创新
主持人:全闪存、分布式存储,在场景共同体里会有哪些变化?
李辉:场景共同体我们也在一个探索过程当中,场景共同体的产品定制会对产品带来什么样的变化,是革命性的、颠覆性的变化,还是说只是一些延续性的、局部的变化。从目前我们对场景的认识来看,它应该还是一个局部的,不是一个颠覆性的变化。比如车还是车,但是这个车根据应用场景可以设计为公交车或是私家车,会有这样的变化。
整体上来讲我们认为产品的架构和基本技术、基本能力是不变的,只是针对场景去做优化,就像远距离传输场景里的无损压缩和传输的需求,在高性能的计算碰到的快速拷贝需求等等,这些变化会对特定场景的用户,带来巨大的促进。
我们预计近期不会有太多的变化,但我们不确定这个场景的延伸,至少我们目前看到两个极端的延伸,一个极端的延伸是往边缘和终端上走,所以在边缘计算领域可能会出来一些架构重构、形态重构的存储。另外一个场景就是进内存计算,或者说这种高速的运行计算往内存存储这个方向,可能会有一些架构和形态的变化,可能会衍生出新的产品。
主持人:对于场景化的追求也是所有厂商都希望实现的这样一个目标。要实现这样一个目标,它有没有一些基本条件或门槛呢?
李辉:在场景共同体里面最基本的东西是搞清楚大家针对场景的认识、判断或者商业期望。
首先大家愿意在这个场景上去投入,我们要想把这个场景通过技术的手段更好的满足,实际上是一定要有投入的。比如说像我们今天提到的智慧交管、医疗影像、金融的内容管理,这实际上都是从用户这一端来看业务发展过程当中在未来一段时间面临比较大的、迫切的需求。
同时在场景共同体里我们会有专业化的分工,比如我们是做产品的,谢老师是做技术的,我们还有做应用的合作伙伴、做其他基础设施产品的合作伙伴,比如做操作系统、数据库、中间件、PaaS平台的,甚至做服务器和网络的一些合作伙伴。
场景共同体有一个简单的想法,就是将专业化分工不同的伙伴聚在一起,类似圆桌或联盟,大家不是点对点,而是多点对多点,通过多方交流合作方式大家共同去解决用户碰到的问题。
主持人:场景共同体有点像从通用存储往专用存储去发展和变化,通用和专用之间需要有一个平衡,在技术上怎么样支撑呢?
谢长生:通用性和专用性的问题还是看场景,看经常性的事件是什么。现在很多场景上,像CPU就是通用性很强的产品,但要拿这个通用的产品去解决有特定的问题,它的效率就比专用产品差很多。
假如经常性事件主要就是快速傅里叶变换,如果95%的时间都是要做这项应用,我们用一个其他技术能比CPU快得多。又如像量子计算,针对某一个场景能够比现在IT方案快几万倍,那就是特定。所以就是这个道理,选择通用产品还是专用产品,取决于业务场景。
李辉:场景之间来看需求的时候一定是个性化的,但是这个场景里面一定是包含着巨大的群体,包含着很多用户,在场景内部又是共性的,所以这就是场景间是个性、场景内是共性,这就是所谓个性化的批量生产,这就是工业革命4.0的核心思想。比如一个领带单品能卖100万件,如果考虑我们周边人的话不会想到它会卖出100万件。但是你把它放到网上的几亿消费者当中,你就会找出100万个直接用户来。所以场景覆盖的群体越大、找到的共性越大,实际上效率就越高。
主持人:感谢两位,相信未来数据存储的场景针对性会越来越强,就像本次圆桌对话的主题“新存志远数聚向新”,我们也期待着场景共同体能够给整个存储产业带来一些新的变化,能够为数据存储、为整个行业用户提供全新的支撑,释放数据价值加速企业数字化转型。