数据存储产业服务平台

2015中国闪存峰会PCIe卡论坛:四位互联网用户畅谈闪存应用心得

2015年8月5日,由DOIT传媒和存储在线联合主办的2015中国闪存峰会在北京盛大开幕。本次峰会以“闪存加速数据经济变革——颠覆方式和速度”为主题,超过 500位各行业用户代表,数十位顶级学者、产业精英和技术专家出席,以圆桌讨论和主题演讲等形式,从不同角度深入探讨“闪存加速数据经济变革”这一话题。

下午PCIe卡的论坛圆桌论坛环节中,我们邀请到了《大话存储》系列丛书作者张冬(冬瓜哥)作为主持,四位来自知名互联网公司的嘉宾,乐视云存储技术总监 薛伟,缔元信数据挖掘总监 柏俊海,美图网高级DBA 杨尚刚和人人网系统工程师李蓓,几位嘉宾分享了实际使用SSD的场景、使用中遇到的问题,对于未来应用SSD的期待等内容,让现场听众听到了走在技术应用领域前沿的互联网公司在闪存应用上的真实声音。

以下是文字实录:

张冬:谢谢大家,今天我们特别有请了4位互联问行业的专业人士,为大家分享一下固态存储在互联网里面到底是什么样的应用场景。我们知道SSD,SATA接口的,谁都可以用,笔记本也用,互联网也用,我们用的是消费级的,我们基本上没有什么要求,感觉到快就可以了,互联网里面用,肯定有很多其他方面的考虑因素在里面。借今天的机会,请了4位嘉宾过来,代表了互联网行业里面4个不同的领域,我们开门见山,首先我想跟乐视云总监薛伟聊一下,能不能简单先介绍一下乐视云产品承载的是什么样的业务,什么样的数据?

薛伟:乐视云整个大的平台实际上是从乐视网演进出来的,传统的视频网站是一个固化的串行的业务流程,从视频数据上传一直到存储,存储完了以后,我们进行视频数据的转码,这是很核心的业务,转码还要走CDN分发渠道,然后在所有终端播放,我们有自己的播放器。我们在串行业务流程上进行解耦,存储作为总控中心和平台中心。传统乐视网站比较单一,就是视频的数据,现在的乐视云存储有很多文件、文档、压缩包等。乐视生态垂直于各个终端,我们将来是全生态的数据存储和对外输出的过程。

张冬:乐视云不仅上传视频,还可以上传任何文件。我上传了大量的小文件,每次登陆乐视云以后,后台查数据库,看看用户有什么文件列表推送过来。这么多的用户同时并发访问,如何保证访问速度,这里面是不是用了固态存储?

薛伟:这里面用固态存储非常好的提高我们的性能,从乐视网公司,我们是公共商用公司,我们会采用SSD ROI的问题,我们也用SSD领域,但是刚才你说的场景我们没有用,我们用低成本的方案更好扩展,包括列表在供应商列目里面都有很好的响应速度。我们在乐视云存储文件数目已经超过60多亿条,这个列表每个人名下的数据是多么庞大。从数据库角度进行优化访问的话,SSD可以改善性能,但是云还有其他的方面,数据库集群方案和集群扩展方案,所以这方面我们没有用SSD。

张冬:SSD在这个场景不足以满足你们?

薛伟:依然是很好的解决方案,我们用其他的方式也可以解决,所以就没有用SSD,但是我们也有用SSD场景。

张冬:秒传大家都清楚,上传一个大电影上去,别人已经传了,会瞬间发现别人已经存了这个数据了,这里面有哈希比对,比对的过程,这么大的哈希值也存到SSD上,还是存到更高速的其他的上面?

薛伟:会随着我们数据量级进行升级,就是文件指纹,文件指纹的方式,后台也有很好的管理方式去做,这个方式跟列表类似,都可以通过非SSD的方案得到很好的解决,上传的那一瞬间就可以判断,SSD对我们来讲,还是比较昂贵的方案。

张冬:还是用机械盘存储主体数据,用类似CDN的方式把超级热的数据缓存起来。

薛伟:刚才我们讲的是业务源数据和列表数据和业务关键指纹数据。从文件热数据,关键场景用SSD。比如说乐视生态今年推超级手机,超级手机上就用SSD做输出,这是不得已的。还有一个场景,SSD做整个的类似catch(音译)的处理,比如说频次管计算,这个量级是相当大的。 我们用SSD ROI得到很好的评测,降低硬件成本,用原始的方式不仅提高成本,而且还遇到了很多天花板。

张冬:你在使用过程中,最看重SSD哪方面的参数?带宽、时延?

薛伟:可靠性、寿命,这几个参数都是蛮看重的,可靠性是第一,寿命是第二,时延也是非常关键的,再往后就是通用的。

张冬:可靠性是您相对比较看重的。

薛伟:对,因为计算都是靠后面的解决,寿命是非常关注的,在写的过程中,对SSD损耗是非常大的。

张冬:写比较多,还是读比较多?

薛伟:因为数据量级太大了,我们用读的场景多一些,有一些计算的方案,通过SSD ROI还是用SSD方式去做。

张冬:下一位我想了解一下缔元信,你们是第三方数据挖掘平台,您能介绍一下缔元信平台吗?

柏老师:我们是第三方数据挖掘分析平台,提供数据分析和业务方面的服务。我们现在每天cookie的数量大概2亿以上,月均40亿左右,现在日均增长是1.5%以上,现在还在增长,我们这边主要的服务对象是新浪、网易、搜狐这样级别的公司。

张冬:您原始的数据是怎么获取的?

柏老师:原始数据获取有几方面,首先有第三方cookie在第三方网站部署,我们会跟数据服务商合作,将数据整合,提供给其他的网站也好,公司也好去使用。

张冬:原始数据获取以后存到类似hadoop平台上。

柏老师:存储平台是类似hadoop,给用户提供服务,核心用户考虑使用SSD的服务。

张冬:对核心用户使用SSD。我之前理解,大数据分析的场景,是不是基本上从原始数据,从磁盘上把数据大块读到内存里面,在内存里面不断迭代、计算,还是说基本上每笔计算都要访问磁盘?

柏老师:我们是第一种场景,我们不可能频繁读写磁盘。对大数据分析来讲,我们做索引和分组,这样的辅助东西对磁盘要求比较高。因为SSD成本确实比较高,用传统方案解决这些问题已经解决了,大数据分析另外一方面就是CPU负载比较狠,做特征提取等等方面需要大量的计算,比如说文本挖掘,吃CPU比较狠。当前我们在这方面做比较多的工作,后续当这些东西我们已经做成一些比较稳定的服务以后,我们会提供一些接近实时的数据服务,提供出实时数据服务以后肯定要考虑我有很多随机读的业务出现了,这时候我们可能就考虑使用SSD,在随机读方面非常优秀的媒介做这件事情。

张冬:我想再了解一下,现在SSD,您是每台服务器都放SSD,还是有一些服务器专门全都放SSD?

柏老师:现在我们用的比较少,我们现在用的是有一些服务器有SSD,不是每台服务器都放SSD。核心业务场景才会使用成本比较高的服务。

张冬:我注意到刚才您说的非常实时的计算,比如说流质计算、新数据进来,我马上输出一个结果,这种场景对SSD随机读要求非常高,是吗?

柏老师:对。

张冬:你最看重SSD哪些参数呢?可靠性、性能?

柏老师:从技术角度来说看重性能,从业务角度来讲,ROI是公司级考量最重要的,从可靠性,从价格,从维护成本方面都是我们要考虑的东西。

张冬:杨尚刚您能介绍一下美图网数据库存的是什么样的东西,平时访问量、压力、查询类型都是什么样的?

杨尚刚:美图网数据库比较核心的,存的是类似索引、图片、视频索引,美图网主推的就是美拍。比如说访问美拍,访问美拍类表,跟刷微博一样,有这些需求的时候,就去数据库取出来最近发的视频,然后展示你发我的视频,这个类型跟微博比较像,这个也是我们比较倾向使用SSD的原因,因为性能是比较好的。

张冬:现在你觉得目前系统有没有瓶颈?如果有瓶颈的话,瓶颈点在哪个地方?

杨尚刚:目前的瓶颈主要是SSD本身的性能基本上很难有瓶颈,还是SSD本身有瓶颈,不能挖掘SSD本身的性能潜力。

张冬:SSD的性能已经足够了。

杨尚刚:我们现在用的是6块、10块,这种性能单纯做压测,只读可以压到七八万。正常来说,单块实力很难达到这种性能。这个主要是RAID卡的原因。

张冬:现在做SSD还是做RAID的。

杨尚刚:单盘SATA的容量是有限的,英特尔、三星最大已经做到2T SATA盘了,容量是有限的。

张冬:你的系统不可能都是SSD,肯定有一部分,某些场景、某些数据、某些库、某些表在SSD,这个策略是怎么定的,是自动分层,还是通过上层手动识别这个热点,然后把分割到SSD上?

杨尚刚:美图全部都放在SSD,没有做区分,有几个考量,我们数据量还没有那么大,现在SSD成本也没有想象那么高,从稳定性来讲,还是放在闪存比较合适。微博数据量非常大,微博从09年到现在4、5年的数据了,尤其是微博内容,数据量非常大。2012、2013年的时候,我们尝试过分层的方案,我们当时采用的软件层面的facebook开源方案我们也做了,但是中间有很多问题,一个是flash有很多板,性能不稳定,后来我们从混合层的方案逐步迁移到全flash的方案。混合层稳定性比较差,比如说要插10块SATA再插一块卡,这种集群比较特殊,维护成本也比较高。

张冬:得益于美图网数据基本上是非常聚焦的,可以说100%都是热数据,数据量不大,这种场景非常理想。如果你换成电商平台,里面各种数据鱼龙混杂量非常大,这个时候很难平衡,到底谁在SSD上,谁不在SSD上。

杨尚刚:对,但是即使没有热点的话,你都放在SSD也比较好,不用区分热点。因为怎么区分热点是很复杂的,flash cach,究竟访问几次才是热点。应用层的策略是比较灵活的,缓存层面是很难把握的。

张冬:都放SSD上成本受不了。

杨尚刚:很多电商网站,核心的数据也放在SSD上的。就看你的场景和要求。

张冬:你最看重SSD哪方面的参数?

杨尚刚:稳定性是第一位的。我们原来在新浪,对稳定性要求非常高,如果达到几万块的SSD的量级,稳定性不好的话,性能好也没有什么意义,稳定性是首要考量的。各个厂商的性能差距是非常小的。

张冬:作为社交类的平台,人人网是不是像微博一样数据冷热分层非常明显?比如说热点、超级热点、发了很多微博以后,很快就变冷了?

李蓓:实际上场景是很相似的,也是会有很多数据,所以处理数据的时候,就会有一些快速的产品解决这个问题。比如说Memory cach(音译)把一些数据线存到机械硬盘,然后把一些非常热的数据,或者列表存到Memory cach解决问题。

张冬:SSD在你们系统里面使用场景最大的是哪个?

李蓓:CDN、BB都会用到。

张冬:比如说一台服务器上,SSD跟机械盘混在一台,还是整个系统都是SSD?

李蓓:混插的。

张冬:不是做了某种特定的分层,还是从应用层挖掘热点,还是把索引主动放上去?

李蓓:没有做分层,主要是把数据直接放在SSD。

张冬:传统的存储厂商提供的透明分层的方案,目前来看是不太适合互联网厂商的。互联网厂商很清楚的知道哪一块是热点,下一刻数据可能有哪些变化。他们自己去控制数据,不是说把控制权放到底层做这些事情。您最看重SSD哪块的参数?

李蓓:可靠性是第一位的,价格和性能也是比较靠前的。现在随着工艺和SSD产品的发展,性能方面很难分出伯仲,在稳定性和价格上考虑更多一些。

张冬:在座的4位有没有感觉,我的场景用了SSD,但是性能还是没有达到?

李蓓:目前来说的话,暂时没有。

张冬:远远够用。

薛伟:实际上我们做多个业务场景尝试着用SSD的方案。其实有一个重要的方案就是分级存储,透明的方式我们是不用的,我们用自己的算法进行调度。用了SSD,没有什么改进的,有一个是用了SSD以后成本会增加。比如说数据库的列表方案用它优化,改进的也会有,但是到了一定级别,我们都是用X86的,我相信这两个到了一定级别,差异不是特别大。

柏老师:目前我们用了SSD有很大的提升,如果出现不够用,不是它的问题,是我们自己设计的问题,或者什么的问题。

杨尚刚:瓶颈主要是SSD的平静,Mysql也在推支持SSD的特性,比如说把SSD放在特殊的区域。SSD本身的性能确实比较好。

张冬:SSD使用过程中还有其他的问题吗?

杨尚刚:监控,各个厂商之间的产品SATA有的参数也不一样,英特尔主流的厂商看到读写量,单位什么都有小区别,各家有各家的工具,主推的NVME是一个方向,如果控制不好,后面也是比较乱的局面,这方面需要加强。

张冬:就是标准化,包括各种接口。

杨尚刚:可维护性工具上标准化的东西。还也一个就是SSD内部可以提供更多的用户感知的东西,比如说写放大比例,实际写入数据量,让用户更好的监控这个东西,知道自己用的怎么样。让厂商开放更多的底层的参数。比如说与数据库的结合,比如说国内SDB的方案(音译)以后有一体化解决方案也是比较好的方向。否则现在SSD用的最多的还是Mysql过程中,所以场景还是比较狭隘的。

张冬:缔元信对SSD的期望建议?

柏老师:我们希望全面了解它究竟是什么样的情况。

张冬:想更加看透SSD里面到底是什么样的,不想让厂商封装起来成为一个黑盒。

薛伟:我们正在做这个事情,邀请一些国际国内厂商进行闪存下一级的优化。实际上我们做乐视云,持续优化是我们不断地追求。我们除了优化本身闪存自己的特征,我们围绕更高级的,我不是加一个闪存就增加多少成本,而是加了这个以后,我对原有的内存可以减少,通过一加一减让它的性能更好。之前所有的方法,用SSD的方法比较传统,传输效率用DRAM提取数据。这种方式是大多数互联网和厂商用的。第一怎么让我们的CPU核数和内存容量减少,这是在Flash基础之上的。第二我们建立一个数据中心,数据中心的能耗怎么降低,第三就是传输效率。希望进入这个领域或者正在从事这个领域,我们开放一些,大家共同发展。我们现在的方式,CPU直接对Flash,没有走DRAM,我们 Flash横向多了一个,基于FTBA的基础发展NAND的控制器。对我们来讲,不是路径减少了,对我们联动业务的串联,在整体体验上是一个质变,绝对不是量变。

张冬:你们做了用户空间驱动的方案,把用户的数据直接写到Flash。

薛伟:对,直接在Flash,还用了RDMA。

李蓓:我非常同意大家说的,希望厂商开放一些接口,我们能够通过这个接口,对卡进行监控,它的寿命和系数,都可以进行各种各样的监控。

张冬:最后请各位大胆预测一下,固态存储在它全面替换线上业务的时间,各位大概认为有几点?

李蓓:比如说有一些老数据,放在SSD上本身就是一种浪费,还是看业务,主要的业务,大面积已经覆盖了现有的闪存产品,以后如果全覆盖的话,它的成本等等各方面都完善以后,我预测应该是5年左右的时间。

薛伟:这个时间取决于两方面,一个是我们整个技术市场的大量的成长,我相信随着SSD成本的降低,把它作为我们行业的标准习惯,这是一个加速的进程。另外一个取决于我们内部,我们也是把技术和经济投资回报放在一起,我们也开启了业务线不同层次的优化。包括我们超级手机已经应用了一些,以及广告比较重要的,带来收入来源的业务性,加上我们存储核心引擎已经陆续开展了。随着ROI投资回报的角度不同,一种是加它对业务的价值,还有对我们原来能耗的降低,维护成本等等,我们内部速度是非常快的。两个加起来的话,可能比刚才说的5年快得多。

柏老师:刚才我说了SSD自己本身的性能不是太大的问题,我们还有很多Mysql数据库其他方面的因素,使它不能发挥它的性能。在这个层面上来讲,我的感觉,大概也是5年左右的时间,需要给其他方面软件也好,硬件设备提供一些时间支持SSD。

杨尚刚:我觉得还要看业务,比如说像数据库,随机读写不用5年,1、2年可能就可以了,大部分的已经替换了,没替换的也是历史问题,新的业务基本上都是纯SSD方案。未来SSD可能是在公有云,RDS服务等等,以后都是基于SSD的服务。像其他的,比如说TFS小系统,本身就是基于随意读写,你用闪存意义是非常小的,在这种场景下替换它,我觉得不是那么划算。

张冬:谢谢几位的分享。我们就以5年来看,希望我们5年以后,还在这儿,再聚在一起,畅谈一下闪存,回想一下我们5年之前的预测,很有可能用不了5年,英特尔跟镁光(音译)开发了新的闪存介质,比NAND闪存快一千倍。底层很小一步的进展,就可能导致上层生态很大的变化,我们拭目以待,谢谢各位。

欲知更多关于2015中国闪存峰会的精彩内容请点击查看闪存峰会全程直播报道专题

未经允许不得转载:存储在线-存储专业媒体 » 2015中国闪存峰会PCIe卡论坛:四位互联网用户畅谈闪存应用心得