数据存储产业服务平台

互联网+碾压下的企业级IT实践论

互联网+来势汹汹,是不是互联网开源架构适合所有的用户呢?它对于传统企业级业务应用上是否放之四海而皆准的呢?

 

随着当前互联网+热潮的兴起,出现了互联网技术架构也正在碾压一切数据中心的业务逻辑。为此,企业级用户不仅面临传统IT架构对自身业务变化的适应性的挑战,同时还面临互联网开源架构对于自身传统企业级IT 架构的融合性问题,那么该如何来看待当前的互联网开源架构对于企业级IT 的影响、融合和价值呢?

 

如何看待互联网开源技术?

 

“对待互联网开源技术,可以抽丝剥茧,慎防邯郸学步。” 这是2015年存储峰会上,业界资深存储专家董唯元在接受阿明采访的时候首先道出了其中的方法论,当然更多的观点来自他在实际用户应用中的创新与实践。

 

 

当前,许多用户非常关注的互联网技术下的几个方面,如规模弹性伸缩、业务快速上线、资源灵活分配、服务性能保障、整体运营维护等,这些来自互联网方面的理念正是传统业务向云计算转型过程中都亟待解决的问题,同时也是传统基础架构中相对薄弱的环节。

 

然而传统数据中心建设在急迫补充先进理念营养的同时,不应该忽略更为基本的一些因素,例如综合成本、业务契合度、可靠性和成熟度等。如果一味盲目补充营养,却忘记了细心甄别补品的具体作用和副作用,其结果必然难遂初衷。

 

三大问题总览开源世界黑森林

 

然而,在互联网开源技术框架下暗藏三种不可忽视问题。

 

 

一是商业版代码与社区版代码的区别。社区一般对其开源产品所承担的支持责任非常有限,远不及商业产品的责任,这一点相信人所共知。但实现同一功能目标的社区版与商业版产品,其代码本身的差异恐怕很多用户并不十分清楚。

 

事实上,一般社区版代码注重实现主体功能,而对意外故障处理则关心不多。有时候即使开发者已经意识到某个局部会出现意外情况,代码里也只是留下个简化甚至空白的处理框架,留待其他开发者填补。而商业版产品在这方面则会严肃得多,所导致的直接可见结果就是其代码量远大于社区版,自然对各种意外故障处理机制也周全细密得多。

 

二是互联网采用的开源产品所针对的目标场景,未必契合传统业务。几乎所有开源产品起初目标都在于解决某个特定问题,当流行开来之后,难免会被貌似同类的需求拿来借鉴。如果借鉴者甄别不当,往往出现张冠李戴的尴尬。

 

业界知名的HDFS可算是被广泛误用之一例。随着Hadoop的流行,很多NoSQL分析型应用甚至SQL应用都拿HDFS作为底层存储。其实从正常文件系统的衡量标准来看,HDFS不仅性能很差,而且对全局命名空间支持也非常不到位,可以算做很糟糕的文件系统。其真正的优势仅在于跨远程的数据源整合机制,而对绝大多数在同一机房内搞大数据分析的客户来说,这个特性根本用不上。

 

而且正因为HDFS的异地整合设计目标,所以HDFS节点间是采用HTTP协议通讯,以致于在本地网络环境中反倒性能不佳,而且优化起来也是事倍功半。

 

三是研发能力要求提升带来的附加成本。互联网企业在使用开源产品时,需要配备大量的研发级专业人员。如果传统企业也想像BAT那样玩转开源产品,首先要组建与BAT同量级的研发和维护团队。在选择产品时节省下来的投资,根本揣不到兜里,只能老老实实花在开发维护环节上。所以说,多数情况下选择开源产品不会真的节约总体成本,仅只是增强了自主空间。

 

三大论断详查先进理念实践性

 

伴随着开源产品,一些新理念也进入人们视野,并逐渐成为当下评判某技术产品先进落后的标尺。遗憾的是这类标尺越盛行,对其深究细判的声音却越弱小。今天我们不妨来冒“共识”之不韪,讨论几个似已定论的是非曲直。

 

一是,Scale-out与Scale-up辩证法。如今人人都言必称Scale-out,而对Scale-up嗤之以鼻。可是如果当街揪住一个工程师追问Scale-out到底好在哪里,答案多半仍然云里雾里。论便捷性的话,Scale-out那种集群里东搞西搞的扩展方式,真的比Scale-up添点CPU和内存就齐活的模式更先进吗?

 

其实真正论及Scale-out的优势,有个重要前提就是系统资源配置的天花板是否直接影响业务应用。大型互联网应用当然都认可这个前提,无论社交、搜索、电商还是娱乐,规模膨胀起来都很容易顶到硬件资源的天花板。但是在传统产业的业务应用中,这个前提就未必处处成立了,真心需要根据实际情况具体问题具体分析。

 

正因如此,天玑数据才提出Scale-at-will的架构,把Scale-out与Scale-up优势整合起来,从而实现更灵活也更接地气的扩展机制。

 

二是DHT 和中心元数据技术选择论。近几年基于DHT(动态哈希表)技术的无中心集群很受热捧,很多新出现的分布式存储产品都基于DHT设计集群机制,并十分乐于以此作为特性优势标榜。

 

早些年间的分布式存储都有中心元数据服务器,而如今的DHT无中心集群与之相比,确实显得更具对称之美。可是除了符合审美之外,无中心集群优于中心元数据集群的技术理由,则未必像初看起来那样黑白分明。

 

众人皆知中心元数据服务器是系统潜在瓶颈,但似乎很少有人在意DHT机制中哈希计算索引过程也同样是潜在瓶颈。其实无中心集群的索引过程仍然存在,只是以计算代替了查询。随着集群规模增加,这个索引过程仍然可能遭遇瓶颈。

 

另外,与中心元数据机制相比,DHT机制是以牺牲可管理性为代价来提升整体性能。目前一些比较成功的DHT机制或变种DHT机制(例如Ceph的CRUSH就属于变种DHT机制)多见于块级分布式存储,而分布式文件系统则因对管理性要求较高,鲜有立基于DHT的典范。业界最早将DHT机制引入分布式存储的GlusterFS,去年也不得不承认其3.x版本中的DHT算法已经日渐成为拖累整体性能和功能提升的瓶颈,未来4.x版本将彻底重建核心DHT算法。

 

三是Share nothing 与Share everything的对比论。这一点似乎跟Scale-out与Scale-up的对比有些重复。业界共识基本将Share nothing等同于Scale-out,将Share everything等同于Scale-up。不过我们这里要谈及的不是集群框架,而是数据库的选择。

 

Share everything这个“落后”阵营的代表就是Oracle RAC,而Share nothing这个“先进”阵营的代表是……是……是……咦!忽然发现在所谓先进阵营中,虽然有若干MPP数据库都可作为偏将或先锋,但居然找不出一个像样的主帅。而且,把所有MPP数据库捆在一起,恐怕也抵不过Oracle RAC一家。

 

还有一点需要注意的是,如果从传统数据库切换到新型MPP数据库,前端应用免不了要进行或多或少的改动,有些甚至需要彻底重写。这对于一般的企业级用户来说,不能不算是一种挑战。

 

如何理解互联网基础架构理念精髓?

 

“很多时候,我们有了一个锤子,觉得满眼都是钉子。”就像有些公司搞了个Hadoop封装版本,然后就到处拿着Hadoop去解决所有“大数据”问题,也不管是历史分析还是实时分析,结构数据还是非结构数据。其实每个开源产品的真正适用场合都相对狭小,即便近似应用类型场景,也会因一些目标细节差异影响正确工具的选择,我们应该“放下锤子,拿出工具箱。”

 

 

“No one thing for all”。早些年间IT大厂还经常把“One stop shopping”挂在嘴边,总是希望能为客户提供一揽子解决方案。而如今的世界已经如此之复杂,新需求新问题爆出的速度如此之快,以致于任何单一厂商单一框架都不可能涵盖。事实上近年来那些野心偏大的企图,多半都陷入尴尬的境地,OpenStack就是其中比较典型的一例。

 

站在互联网先进理念和传统企业级用户的需求之间,需要一种桥梁和连接,需要将其中的技术和架构理清楚,搞明白,那么面向企业级用户不同应用的定位方案也就自然产生了。

 

“这也是为什么天玑数据作为一个相对年轻的产品公司,却已建立三条对应业务场景完全不同的产品线,并细分了7款针对不同也许特征的产品型号。为的就是在真正复杂的企业级业务需求中,尽可能满足客户的不同需求。”目前身为天玑数据总经理的董唯元这样说道。

 

融合平台如何细化用户应用场景?

 

目前天玑数据针对核心数据库业务场景、私有云场景、海量存储业务场景分别推出不同的产品系列,同时针对每个系列产品又有细分,每个细分产品覆盖用户更细致深入的具体应用和场景。

 

定位数据库业务场景的的PBData数据库一体机,目前在中国市场已经形成规模化销售,“据我们市场调查发现,PBData仅次于Oracle,市场份额排名第二,已经超越华为数据库一体机。”董唯元公开说道。

 

天玑科技管理服务部技术总监刘鹏表示,双十一浙江移动秒杀活动中,浙江移动和天玑联合研发的DCOS数据中心操作系统,与PBData数据库一体机从应用层与数据库层相互配合,成功应对了业务高峰压力,“双十一当天,超过2100万注册用户,10亿pv和200多万并发连接数,相当于200个营业厅系统并发量。”

 

定位私有云场景的超融合产品领域目前面临的竞争比较激烈。整体市场份额NUTANIX、vmware等排名绝对领先,国内也有非常多超融合公司与产品。不过,在这个领域大部分厂商采用开源openstack、ceph+x86的模式,所以进入门槛低,竞争自然非常惨烈。

 

超融合到现在为止依然被认为属于IaaS 概念范畴,然而董唯元有些不同的理解。他认为超融合的定义应该更接近应用,才能发挥其价值,仅停止于IaaS层的软件定义无法真正从业务角度出发,显然也无法真正契合客户最终对业务的要求。天玑数据的Pridata超融合一体机则将业务作为服务目录的形式提供,从用户业务逻辑出发进行一站式部署运维,使用户能够从业务直接纵向深入至平台、数据库、基础设施,以应用定义数据中心,这点有别于其他厂商。

 

另一方面,虽然虚拟化是数据中心基础技术,但不是唯一方向。传统VM灵活性虽然比物理部署高一些,但在增长量巨大的移动互联业务压力下,比如正在面临转型的运营商、金融企业用户,这样的灵活性是远远不够的。而采用容器技术的DCOS来提供前端支撑,性能与弹性伸缩能力表现更为优越。如果说虚拟化对物理机器的管理效率可以提升10倍,那么容器则可以提升40倍。这点在之前双十一浙江移动的案例中已经得到了充分的解释

 

在业务场景变化剧烈的环境,容器是未来。“我们看到了DCOS的出色表现,下一步,PriData里面会更加强调容器技术发挥出来的价值。”

 

可见,天玑数据三大系列平台针对不同的三个用户场景,每个场景下的优化和细化也做得非常彻底。其中不仅有借助互联网架构下的技术优势,同时也具备自己独有的创新。因而,互联网开源技术我们不仅要科学地认知、利用,同时在具体实践中找到更有利于企业级用户真正应用的新价值。(阿明)

未经允许不得转载:存储在线-存储专业媒体 » 互联网+碾压下的企业级IT实践论