数据存储产业服务平台

泽塔云CTO:云计算趋势下的超融合架构

近几年来,超融合的市场热度始终是居高不下的。当然我们也可以也做一个对比论证,2015年超融合作为一个新兴初创市场,其市场销售额是一个亿;2016年销售额数字达到20亿,一年时间增长20倍,大家可以看到增速非常之快。近期闭幕的中国存储峰会下午场,超融合技术论坛中,泽塔云CTO明晨发表了《云计算趋势下的超融合架构》的主题演讲,介绍了超融合为用户带来了哪些改变。

img_8818

以下为泽塔云CTO明晨的演讲实录整理:

泽塔云背景:泽塔云英文名称ZETTAKIT。公司旨在将海量数据放到一个很小的容器内,实现客观交付。公司成立两年多时间,员工约80人,其中一半以上都是研发和技术人员。 经过两年的发展,泽塔云在全国有六个分支机构,北京为总部和研发中心。南京、西安、成都、郑州、深圳设有分公司。今年12月份,泽塔云计划做B轮融资,之后将在广州、沈阳、上海、杭州设立分公司,进一步覆盖全国的市场。

2015年9月份泽塔云获得国内顶级创投团队深圳达晨给我们A轮投资1500万。今年4月份发布V2.0版本产品。这个版本涵盖了包括计算、存储、网络,包括安全的完整数据中心软件定义解决方案。

此外泽塔云在吉林农信,吉林银行、国联证券、民生证券有相应的项目部署落地。今年跟神州数码联合开发做GPU云还有VR云虚拟现实。(顺便一提,泽塔云在展厅搭了VR体验环境,小编尝试了一下,和血战上海滩的枪战游戏相仿,VR确实体验更佳,但容易忘我,排我前面体验的妹子一抡手把就朝着围观群众去了……)

超融合带来的改变

回归正题,超融合到底改变了什么?人们为什么用它?因为相对传统架构来讲,超融合有自身的提升,包括它的性能、可靠性、扩展能力、管理的程度等等。当然我们可以看到超融合里面所用的技术,包括虚拟化,包括网络技术、存储技术其实都是过去比较长的一段时间里我们在沿用的技术。

现在我们从项目的落地,用户的反馈来看超融合带来的改变,用户感受最深的改变是服务的交互方式。可能之前上一个业务系统,异构环境,服务器,交换机,磁盘阵列,虚拟化软件。先是需要专家选型,讨论方案、对接方案,项目周期可能两三个月甚至半年时间。项目周期很慢,而超融合部署可以快速简单交付使用。三台一体机,化繁为简的交付方式。

关于传统架构,我们可以看到一个现状,传统架构里面的层级很多,包括服务器虚拟化,服务器硬件、交换设备,包括磁盘阵列等等——总的来说,异构环境,管理复杂。另外一点从性能方面讲,纵向IO路径很深,从业务端产生以后需要经过每层周转最终落到磁盘阵列上面。另外一点在我们购买存储之初看到它的上限。厂家告诉你一拖二,一拖三就OK。你加拓展柜,容量虽然能增长,性能反而有一定程度的衰减——SaaS链路,延长、衰减等等。客户关心的成本问题,构建这个架构的采购成本,服务器、网络、交换、虚拟等等,大约硬件成本不少于150万,可能更大规模两三百万,四五百万都很常见,这是传统一个架构。

再来看超融合,超融合给我们带来什么?第一点简单的管理。一套管理平台,我们平台可以涵盖计算资源,虚拟化资源的管理。网络资源的管理,存储资源管理包括一些安全的管理。

另外就是性能上,是很扁平化的架构,IO效率得到一定程度的提升。另外提到建设成本,原来硬件、服务器、存储、交换这些硬件,150万硬件成本。我实现同样的能力,比如同样的存储空间,同样的CPU内存计算资源,可能三台X86服务器搞定,这是超融合带来价值的提升。

除了刚才提到像性能、成本,包括扩展能力以外,我们看到包括功耗上,本身磁盘阵列把存储归还给服务器,功耗一定是减少的。机房里面相应配套,像UPS,电源,机柜空间的节省都是会带来的。另外一方面就是管理运维,人力成本节省,时间成本、初始建设成本等等。这里提一点,传统架构中做IDC运维的时候,真的很难做到说有很多异构设备,你放几台备件,形成备机。而在超融合架构里,标准的X86硬件,我不挑硬件,CPU能做虚拟化就OK。拿过来以后就可以预置系统。当硬件坏掉时,直接顶上,非常的便捷。

ZETTAKIT超融合产品的架构分了几层,下面是硬件,中间是资源池,上面是资源管理调度和管理自动化。我们现在跟硬件是完全解耦,我们做利旧,如果有现成的服务器,像X3650 M3,M2的服务器,戴尔、惠普服务器,我们可以帮你利用。包括异构存储的设备,像IPSAN,包括NAS我可以容纳进来做整体的管理和交换机。

1227

ZETTAKIT超融合产品的整个存储,我们把它称之为去中心化的全分布式架构。我们这个节点,集群里面每个节点,每个服务器都是对等的。有几个角色,第一是集群数据,第二是源数据节点,第三是管理仲裁节点。我们源数据打散,放在一台两台服务器里面,可能存在单点可能是风险,另外性能瓶颈都会有。这里我们把源数据拆散,分散每个节点,性能并发。而管理仲裁,我们集群节点初始部署的时候,每个节点都会预置一个管理仲裁模块。任意时刻只有一部分的节点,你是十个集群,我选三五七个都可以。只有一部分节点行使管理仲裁,称为董事会,当一个坏了,整个集群会从其它的默认节点里推出一个节点进董事会。后端组网我们支持普通千兆、万兆都是可以支持。对上层接口,包括像普通的文件,块接口都可以支持。

而宕机迁移的时间,泽塔云可以做到一分钟以内。为什么不是秒级?这里讨论两点,第一是你的业务是否需要这么短的时间保持业务连续性。我们做金融行业用户,保险、证券,15分钟的宕机时间足够。一两分钟足够你去做安全的规划和手段。另外一点我们会规避一个风险,就是监听,工商局去机房做运维,不小心把网线踢断了,我们马上做迁移,反而对集群造成不必要的影响。我们有一个监听周期大概30秒钟,判断完成之后,我们再去做迁移的动作,保证你迁移的准确性和无误性。

超融合为什么更安全?很多厂家提了副本策略。可能做法不同,我们这里两副本、三副本都OK,以两副本为例看泽塔云的实现方式。ABCD数据为例,首先我们会把它完整的写入,另外一个副本打散切片相对均衡分配在其它网络远端节点之上。这样做的好处,第一副本策略带来的容量提升,这毋庸置疑。第二我们在性能方面有优化,远端节点和本地节点IO是差不多的。网络上远端节点没有明确的写短板效应。一个架构里面写一个数据,基本上接近本地IO性能,这是写方面的优化。另外一点就是读,大家可以看到ABCD数据过来以后,完整落到本地。你的虚拟机和业务对数据有请求的时候,从本地支持。

传统硬件定义场景,二层三层交换机,定义之后你的网络边界,你的网络架构。几个问题,资源利用问题,网络安全都会有。我们实现这些主要通过软件方式来让用户自己去决定网络边界所处位置。通过界面,通过这些配置非常具有灵活性。

我们来看第一个就是分布式虚拟路由,分布式虚拟交换,大二层网络,这样的做法用户可以自己定义它的网络外延到底在哪儿,它可以做多租户,一个大云里有多个小云都可以实现。

安全方面,南北向流量,软件防火墙,四防七层的负载均衡。云主机防护是SDN实现的事。

12271

这是我们界面截图,叫做所画即所得网络拓扑,我们真的把软件定义权力交给客户,让用户定义你的网络是什么样。界面里的小图标有虚拟机、交换、路由、防火墙、主机防护,可以直接拖拽。比如创虚机、创路由交换,直接拖到这个里面,就创建出来了。谁跟谁组网,某个虚机跟某个交换设备去连,把鼠标拖到这个节点附近就撒手,这个网络拓扑建成了,运维方式简单。另外通过数据中心的大屏显示器,在我的办公室直接展示出来,你的网络当前状态可以直观呈现,方便运维。我们在资源监视,存储、计算都会有一些。

12273

我们的自动弹性扩缩,没有1.0版本。有一个互联网电商用户曾提出一个需求,像双11、双12这样的场景,资源要求会突发激增,该如何做?我们在这里面实现一个东西就是虚机的弹性扩缩。针对当前虚机的资源使用情况,超过80%或者90%的时候,负载均衡调度就出发,动态添加加虚机资源,满客户业务需求。当业务某个时刻变温或者变冷,不需要那么多资源的时候,将会相应做一个回收。

关于安全这一块,实际上我们对安全的理解,安全一定是多维度,这里面可能涵盖计算安全,虚拟化安全,存储安全,网络安全,管理安全等等,这里面主要是网络安全这块。在实际项目中,绝大多数的用户都倾向于硬件安全防护设备。究其原因有两点,第一用户的使用习惯,惯性在那。第二一些安全设备不适合做虚拟化。这里面要说的尤其是超额场景中,最紧迫的还不是外部安全防护,实际上是内网安全。在这方面,要做的一个是云主机防火墙,另外一个就是病毒木马防毒,通过防火墙我们有端口,路由流量管控,限制子网之间主机之间隔离。通过防毒实现向虚机,病毒木马向虚机挂马,避免这种场景出现。

大家知道机械盘最慢,我们做的事就是在机械盘和业务之间加一个序列化层。可以是高性能SSD,也可以是普通的HDD。这里面要实现的就是把上层随机无序的数据通过序列化层做打包,相当于把随机转顺序的过程。通过这样的优化,可以把IO提升10倍左右,后面有一些数据跟大家分享。

这是我们实际运行的项目,左边是传统架构,典型SAN网络场景。三台一体机,6U,2200W。相应的配套,UPS,空调,机柜空间等等。我们通过随机序列化,同样硬盘做到6000。相当于什么概念?二甲医院的看病,开方子都是根据这个系统。

12274

GPU,目前我们在这块主要做的一件事就是我们在整合江苏和山东,包括安徽整个市的网吧。建设的时候成本除了场地以外最贵的占用最多成本就是机箱,主机一台3000块钱,2000块钱都是显卡,每两年更新换代一次。我们怎么做?把原来分散每个主机里面GPU资源,放到一个集中高密度的Server里面做虚拟化。这个Server可能支持十个、十六个显卡。针对虚拟化,我们针对不同用户。有的用户区网吧听歌、看电影,分很少资源甚至不分,打游戏我们就分很多的资源。

灾备方面现在有两套方案,异地的场景,数据级的保护,两个节点之间分别部署超融合,两套超融合之间去做数据级别异地复制。中间时间策略还有打快照保证它的逻辑。

另外一方面就是双活数据中心,一套超融合我们把它拆开,中间第三地布一个仲裁站点。两中心之间做大二层网络打通。东北银行做的就是这种场景,主行和分行之间七公里距离,主中心一份副本,灾备中心一份副本,完成之后测试整体切换的时间。总中心断电,测试之后时间是两分钟。迁往大二层的网络,非常快,不用改中间的中间件。另外整个数据做这个场景,数据兜一圈是五毫秒。

这是泽塔云产品当前的交互方式,第一种针对用户既有资产比较重的情况,做利旧。只要你的服务器支持虚拟化就可以做,另外就是虚拟机。

案例分享

这里分享两个案例,这是国家卫计委管理中心做得项目,最早用户想做一个云数据中心。当时找一家集成商帮它做打包方案,包括虚拟化、服务器硬件、存储硬件、网络硬件。整个方案做下来以后,给用户报价四百万。2014年财政紧缩,预算未批,批了两百万。用户与我们沟通后指定了我们。帮他做两件事,第一就是我们在他的数据中心部署8台戴尔的2820服务器。这里部署一套超融合,支撑整个医疗云的项目。第二在他的灾备中心机关办公室改的机房,淘汰下来四台服务器部署对等。在两套中心之间做了数据级的异地灾备。大家可以看到传统架构方案400万没做的事,只是云数据中心,200万预算,不光把用户想做云数据中心实现了。同时做数据级的灾备。整个项目做完了。做宕机迁移现场测试,直接到托管机房拔电源,远程一分钟之内,这台被拔电源物理机虚机平滑地做了迁移。而这整个项目做下来之后,统计资源利用率使用情况,CPU、硬盘资源情况,总体资源利用率不到30%。也就是说卫计委未来三年不用再采硬件设备。

做天津职大的项目,当时用户采取了虚拟化,他们的痛点是存储不稳定,经常闪断。用户表示想将所有的数据,业务放到服务器里面,不想用存储。他提出了一个超融合的需求,我们就把他所有虚机业务和数据做了一个迁移。整个业务做下来,业务系统非常多,大概60多个。我们迁移过程中,通过P2V、V2V迁移工具,2天时间60多个业务系统搞定。这个上面没有上一个新硬件,完全是既有硬件帮他实现,纯利旧的场景。

泽塔云愿景:12月份将启动B轮融资,大概按照十亿估值来做。B轮做完以后,泽塔云计划做两件事,第一就是成立ZETTAKIT创新架构研究院,像微软、英特尔研究院一样,专门进行前沿领域研发。第二收购大数据团队,打造IaaS+PaaS的整体云计算解决方案。现在数据中心基础架构朝着新一代基础架构转型,未来IT变化五年十年如何谁也不知道。我们希望不管未来架构什么样,它们不再来自美国硅谷,不再来自印度,来自ZETTAKIT,来自中国的厂商。

未经允许不得转载:存储在线-存储专业媒体 » 泽塔云CTO:云计算趋势下的超融合架构