对将非结构化数据转化为可操作的商业智能的美好前景感到兴奋?你需要做的第一步是创建一个可以处理PB级数据的存储架构。EMC Isilon的Nick Kirsch表示,横向扩展NAS(网络附加存储)是最佳解决方案,他还为首席信息官提供了用以判断横向扩展NAS的五个原则。
随着企业开始进军大数据世界—数字化纸张文件和保存电子邮件通信,Word文档、Excel文件和各种其他非结构化数据都可能转变成可操作的商业智能,不过企业首先需要解决一个大问题:存储。
“企业累积了越来越多的数据,信息量达到PB级,”EMC Isilon公司产品管理主管Nick Kirsch表示,“他们面临着类似的挑战:他们面对如此庞大的信息量,他们该如何利用?他们该如何将这些信息存储在可扩展的架构中?”
一种可能性是垂直扩展。垂直扩展也就是使用新的高容量设备替换你现有的存储设备,让你现有的存储节点变大变快,甚至更强大。以这种方式来加强存储基础设施很有吸引力,因为这种方式简化了管理,并减少了占地空间和电力消耗。但是这种方式并非没有问题:它不能简单地跨越多个地点,它没有很多固有的整体灵活性,并且大型高性能存储设备价格很昂贵,在处理不断增加的信息洪水时,最大的问题就是现在的存储设备只有那么大。
“你可以建立越来越大的单一单元控制器,”Kirsch表示,“但是在某些时候,你不能够让系统变得更大,你必须添加第二个系统,最终你可能需要管理数百个独立单元。”
Kirsch表示,水平扩展(横向扩展)NAS是一个不错的选择。横向扩展NAS架构没有选择昂贵的高容量存储设备来作为存储元件组合到总存储池。横向扩展NAS并不是让节点变得更大,你按照需要来添加节点。这种方法的缺点就是你可能很快就会面临一个更为复杂的管理环境。但是这种方式可以跨越多个地点,并且有很大的固有灵活性。也许从管理大数据的角度来看,最重要的事情在于你能够快速地低成本地添加存储。
Kirsch表示:“当涉及存储时,人们最大的抱怨就是真的很容易管理单个单元,但是当你有两个或者更多单元时,管理就变得很复杂。”
对于大数据,NAS是比SAN更好的选择,Kirsch表示,因为SAN并不是为非结构化数据和文件共享而建立的。为了与网络协议(例如NFS或者CIF/SMB)一起使用SAN,然而,你必须在SAN前面部署文件服务器,这会增加管理复杂性,并会影响可扩展性。
横向扩展NAS的五个原则
Kirsch为首席信息官选择横向扩展NAS架构提供了以下五个原则,宗旨是简单至上:
易于扩展 “企业需要选择的下一代存储架构应该是易于扩展的,”Kirsch表示,“如果我有1TB驱动器,这就是我可以管理、可以保护和可以复制的数据卷。为什么 管理15PB数据不能也像这么简单?不能因为数据量变大了,事情就变得复杂了。”横向扩展架构可以通过软件管理和虚拟化/抽象层(让这些节点像单个系统一 样)来解决这个问题。
可预见性 “性能应该是具有可预见性的,”Kirsch表示,如果我这周增加了6TB,下周增加了6TB,我希望在性能方面具有相同的线性可扩展性。我不希望还要重 新设计我的应用程序或者重新教育我的用户。应该以可预见性的方式来扩展。我希望根据预测的增长情况来增加开支,不要让我过分投资。我知道摩尔定律下个月将 会让我们实现更快的计算速度,并且驱动器也会随着时间的推移密度变得更大。下一代存储架构最好能够利用我现有的存储基础设施的优势,并且应该是共享对称架 构。不要试图让我了解你的架构的差异,让我根据需要来扩展系统。
有效性 “让我利用我的存储系统中的所有资源,无论它们在什么位置,”Kirsch表示,“让我充分利用我的物理磁盘驱动器,不是50%或者55%,而是80%以 上的存储利用率。无论CPU、计算或缓存在哪里,我能够利用它们。我想要存储系统最大化利用应用程序的性能。另外,请将分层整合到存储系统。”换句话说, 你需要移动数据来优化性能或者优化容量。对付大数据的横向扩展NAS应该具备足够的智能能够将这一过程自动化。
可用性 “它必须是在任何时间都可用的,”Kirsch表示,“利用N-way架构的优势。让我能够从两次以上故障中恢复过来。让网络环境的某个机架出现故障时, 让我也能够及时恢复。同时,必须具有灵活性。让我可以根据业务部门的需求来保护系统。如果他们愿意投入更多资金,我可以为他们提供更大的可用性。如果数据 不太重要,我可以减少这些数据的可用性。”归根到底,由于横向扩展NAS存储基础设施是建立在商业硬件之上,那么硬件可能会出现故障,系统应该被设计为能 够处理较高频率的硬件故障。
企业保障 Kirsch表示,“由于这项技术已经成熟,它应该是IT的关键部分,这个系统应该具有快照、复制等所有其他传统IT功能。这项技术是从HPC root逐渐发展出来的,但是如果你打算建立一个横向扩展系统,你必须以适应企业环境的方式来建立。”