富士通投入大数据,混搭由Apache Hadoop大数据组合的富士通软件,它说这比单独使用开源代码更好。
像很多Hadoop用户一样,使用富士通的大型机、Sparc、x86设备的的客户抱怨产品Hadoop Distributed File System(HDFS)的局限性,所以富士通升级一月份发布的Apache Hadoop 1.0堆,并且给HDFS提升性能。
据富士通称,问题在于企业系统与Hadoop 系统在不同的系统中存储不同格式的数据,你最终不得不从企业系统中上传数据到Hadoop集群,整理数据,然后下载缩减的数据回到企业系统中。
Interstage Big Data Parallel Processing Server V1.0采用Hadoop MapReduce算法,并与富士通专有的分布式文件系统结合,最终企业系统和Hadoop集群可以互相配合。该文件系统运行在主机上,利用富士通的 Eternus磁盘阵列,有针对企业系统的标准Linux界面,以及用于Hadoop集群的兼容HDFS界面。
富士通没有对其专有的分布式文件系统命名,但是它可能属于富士通Fujitsu Exabyte File System(FEFS)的变体,这个产品是在去年公布的,并将目标客户锁定在公司的超级计算机用户。(FEFS本身就是开源Lustre文件系统的变体。)
另一个创新就是富士通引进Interstage Hadoop发行版,聚集Hadoop主控节点,由控制器告知哪个服务器节点处理哪个数据,单节点故障和Hadoop集群的性能瓶颈,以便于得到高可用性。
最大的好处是Hadoop和企业系统都可以处理位于Eternus阵列的数据,这样相当程度的加大了Hadoop的效率,因为你不必再等待企业数据上传到Hadoop集群。如果假设你没有其它想要进入MapReduce的外部数据,这种问题对于现在做大数据的很多公司来说是不成立的。
Interstage Big Data Parallel Processing Server V1.0将要在四月底开始出货。每个服务器处理器的许可费用为7465美元。富士通表示,在日本以外的销售价格可能有所不同。