逃出大数据困境 开源或是关键手段
IT168 发表于:12年04月25日 09:37 [转载] IT168
开源的角色
现在的商业智能和企业搜索的专有应用程序都没有“坐以待毙”。商业智能增加了更多类似搜索的功能,并且搜索肯定取代了很多商业智能功能。但是在几年前,专有解决方案似乎是最安全的方法,而开源解决方案似乎更具风险。而现在,很多公司开始看到,因为开源项目独立于企业财务决策,他们对于保护其长期投资更具后劲。此外,很多企业发现他们更容易获得、培训和留住开源人才,因为,他们可以深入代码。
在商业硬件上运行的开源应用程序也是实现真正可扩展解决方案的最佳途径之一。扩展专有解决方案总是会面对财务阻碍,并且随着越来越多的数据需要汇入这些系统,这个问题变得更大了。开源进行扩展更具成本效益,因为你不需要相关的授权费用。当然,这并不是免费的午餐,但是开源每年都会降低成本,即时在某些情况下,前期成本似乎更高。
例如,考虑一下,一家金融服务公司面临着扩展的严峻挑战:在交易方面有巨大的交易数量,同时需要保存、访问和搜索大规模非结构化数据(客户端电子邮件、M&A数据等)以满足监管目的。很多企业可能坐在数据的金矿中而他们却全然不知,因为他们根本就不具备回答各种问题来发现这种信息的能力。相反的,对他们而言,这些数据就像是一个黑洞:信息进入,但从来没有出来过。
通过Hadoop集群来聚合信息,通过Lucene/Solr来提出正确的问题,突然间,这些公司能够产生大量聚合信息以加强贸易和市场分析,并且通过粒度搜索和发现来实现更好的业务分析和合规以及电子发现。开源解决方案使企业负担得起这种系统,并且能从长远角度来进行扩展。
深入而广泛的灵活性
通过主要的“大数据”工具(包括用于搜索的Lucene/Solr、用于聚类大规模数据的Hadoop、Hive和HBase以及用于大规模分析和学习的Apache Mahout、Apache Pig等工具),具有搜索功能的开源应用程序能够帮助企业对信息获得更深入的的洞察力,这主要通过为企业开发人员和他们服务的用户提供具有检索性的信息和可访问的机器学习算法。这些工具不仅能够允许我们都习惯使用的传统关键字搜索,还为用户提供了提出深刻和更困难问题的能力。
通过消除耗时又限制利益的设置数据刚性结构的过程,可以让用户提出他们需要提出的问题,基于目前的业务现状,而不是基于业务分析师或者数据库设计者几个月或者几年前的意见。这些应用程序还能够消除了数月的延误时间,以及到IT来重组数据库或者创建新的查询的需要。此外,由于其扩展能力,这些应用程序还能够保留这些信息以用于未来使用,当然在未来,我们毫无疑问会有不同的想法和处理技术,从而延续了这些系统的价值。
开源SDA解决方案提供了具有成本效益的对所有类型数据的搜索和分析,开源解决方案的崛起是不可避免的。这是一个生存问题,如果没有开源解决方案,我们将被淹没在数据海洋中。这也是一个成本问题,我们发现如果没有开源解决方案,我们将很难扩展搜索和分析。这还是一个竞争力的问题,如果没有开源解决方案,企业将无法与客户进行互动,或者有效地发挥员工的价值。因此,你需要回答的问题是,SDA是否符合你的信息战略?