什么样的存储设备决定怎样的未来?
vivian 发表于:13年06月17日 10:49 [编译] 存储在线
我一直都是这个态度,而且存储发展的趋势也很明显:不论你使用什么应用,使用的是云,Hadoop或文件系统,装备才能决定你的未来。如果你遇到存储问题,至少会有一家供应商能为你提供解决方案。
不论是在企业内部还是面向公共云,数据中心的加固都是目前IT行业的重要部分。所以,你应该做些什么确保以后找得到工作呢?
我的建议:设备跟上潮流。
当公司选择把IT架构全部或部分外包出去时,是因为有人可以从中获利。我所听说过的IT外包利润高达25%。问问你自己为什么其他公司或云供应商可以买下所需的硬件和软件之余,公司内部IT部门还可以获利。从我以往的观察来看,部分是因为公司内部政治通常会降低数据中心的效率。每个部门都想按照自己的方式做事。
但是设备模式不会按照人们的主观想法来改变,它只会按照企业的结构模式来改变。
我想通过这篇文章谈谈你应该了解的一些设备及其差异,好让大家未雨绸缪。如果你的IT架构像壁炉管道,没有对存储,虚拟化和运算进行分区,那么就需要在未来几年迅速对此环境做出改变。另外,你可能正在找新工作,因为一些供应商们正通过外包,IT合同或转交给云供应商的方式将你的环境变得更为新潮。
我的观点是,你需要好好计划,充分准备。我们先说说你需要熟悉的几种设备。
Hadoop 设备
这类设备可分为三种:
1.标准Hadoop
2.共享型文件系统Hadoop
3.快速存储Hadoop
标准Hadoop
如果是一个标准设备,你可以为Hadoop购买预加载和配置好的节点以及优化过的硬件。
你可以从很多供应商那里购买这类软硬件。某些情况下,你还可以只是为集群购买软件,而在其他情况下,则是从软硬件优化的厂商那里购买。不论何种方式,这都是具备三方复制,带有预配置软硬件的标准Hadoop。
共享型文件系统Hadoop
共享型文件系统设备通常具备Lustre或GPFS文件系统,它们可以优化Hadoop的清洗阶段(Shuffle Phase)。此法之所以奏效是因为可从全球的节点读取数据,而不是一定要跨网络读取或分布。所有的节点都依附于共享型文件系统,可从存储的地方直接读取数据,无需从服务器进入网络,再返回服务器到存储。
用这种方法处理某些问题,比标准的Hadoop配置方法快速。此外,还保障了RAID的可靠性和故障转移。供应商们的可靠性案例显示,如果是RAID,就不需要三方复制。
快速存储设备
很多供应商都已经具备或是正在开发用于Hadoop的SSD设备。他们的队伍会越来越壮大。这些设备都是被优化过的,易于管理。
哪一个最好?
当然,答案取决于数据的数量和类型,有多少数据输入以及正在执行几项查询。搞清楚这些问题有利于你的选择。
大型文件系统设备
目前,有两个不同的大型共享型文件系统被用于大型存储设备--GPFS和Lustre。很多供应商们都在生产这些设备。Lustre是一项开源项目,而GPFS则由IBM出品。
这些文件系统的扩展性能远超当前NAS供应商的产品。两个文件系统都可以扩展到数千客户端,传输速度可达每秒几百GB。什么样的NAS供应商在可扩展的单独域名空间中拥有30+PB呢?
问题是,从很大程度上说,这两个文件系统都是按照大型数据块的需求和用户的连续I/O设计的。这并不是说不能对软硬件进行配置,使其支持更小的数据块。我并不是说小型数据块的性能比NAS机箱要好,但或许你想搞清楚这些问题,以显示你的共享文件系统有多神奇。
1.从以下方面了解你的工作负载:
2.向供应商询问端到端的可靠性。
3. 询问供应商关于RAID重建的事情。
其他设备
现在市场上有很多数据分析产品和数据库产品,可能其中有些能满足你企业的需求。这些新设备或许能以某种方式将信息关联起来,或是使用图谱分析寻找关系。
这类事情都是一致的:如果你无法在本地更快速更经济地完成,就得把任务外包到云中。
我们的工作岌岌可危
如果CIO和公司员工不遵循计划,那总会有人遵循。那个时候,就会有人取代你。
我在日本测试一款新设计的文件系统时,我最好的朋友就告诉我“我们要吃寿司,不然我们就会变成寿司”。意思是你要么随着这股潮流改变,要么等着被拍死在沙滩上。
市场上推陈出新,我们就要与时俱进。管理也应该纳入这一进程,这样才能实现高效。
否则,就等着把工作外包到云中或是给其他企业把。现在有很多新技术可以解决新问题和旧问题。我们要熟悉这些技术才能生存下去。
我想,很多我们现在看到的存储技术都将成为专用设备。虽然目前90%的数据访问都是通过POSIX系统接口,另外10%则通过对象接口,但是在未来十年,这种情况会发生改变。
要做好准备,还记得那时候的我们从专属大型处理器过渡到DEC,MIPS,英特尔等厂商生产的微处理器吗?这次将和上世纪90年代微处理器带来的改变类似。