逃出大数据困境 开源或是关键手段
IT168 发表于:12年04月25日 09:37 [转载] IT168
企业比以往任何时候都更加需要数据分析,但是数据的性质已经发生了变化。在不久前,企业需要分析的数据主要位于结构化数据库和电子表格中。但是,在过去几年中,一切都改变了。我们现在越来越多的(有时候是完全)依赖于数字形式的沟通。除了电子文件外,我们还有电子邮件、短信、博客及其评论、互动式网站(包括wikis和其他协作网站以及资料库等)。
再有就是机器生成的数据。你的汽车、手机、电度表都在产生数据,很快你的冰箱和咖啡机也会开始产生数据。事实上,人类和数字数据间的每个互动已经成熟到可以被捕捉和分析,这些信息并不整齐,但是这些信息是极其宝贵的。目前的企业搜索解决方案能够提供对这种非结构化数据的洞察力,但是它们并不能很好的进行测量,并且它们并不提供对结构化数据和非结构化数据必须的分析。
执行和测量分析以及利用ad-hoc访问能力的需要颇为引人注目。企业想要保持灵活性和竞争力,员工必须能够执行更快和更强大的搜索以提供对数据更好的洞察力,使他们能够发现之前隐藏的或者无法访问的数据中的连接。
很多企业对于用户和这片数据海洋(不只是原始数据)之间的相互作用变得越来越感兴趣,因为他们相信对这些互动作用的分析能够帮助他们更好地对客户做出响应,更快地认识业务和客户趋势,并作出更好的业务决策。这通常也是在这个时候“大数据”一词被大多数企业意识到。
在运营方面,企业需要确保他们能够成功地驾驭日益复杂的法律、法规和合规环境。这需要企业识别、存储、搜索和生成相关文件的能力。如果没有能够经济有效地分析内容的搜索和发现工具,预算将不堪重负,业务也将逐渐缺乏对员工和客户对企业的意义的真正性质失去洞察力。
实现SDA
那么,我们应该如何对结构化和非结构化数据存储进行及时的访问数据和执行分析呢?我们应该如何提问,以帮助我们找到所需要的具体信息,并从存在的隐藏的关系中获得知识呢?
这需要从以搜索为基础的应用程序和(通过类似商业智能的报告的)洞察力开始,基本上就是大数据和那些有疑问的实际用户发起的点到点实时数据访问的结合。关键字搜索加上发现功能(例如聚类、建议和分类)能够帮助用户更快地找到具体内容。
在试过可行的搜索技术中,首当其冲的就是对分析能力的需求,以满足两个领域。首先是客户为导向的结合了原始内容以及所有用户交互的学习方法(客户就是上帝,对吧?)。这种良性循环也是目前领先的面向消费者的网站(例如亚马逊、谷歌和Facebook)成功运作的原因,并且正在迅速成为一种必然,而不是那些希望在市场获得竞争力的企业值得拥有的能力。
想象一家每天面对2000万页面浏览量的大型电子商务公司,虽然其核心产品的搜索索引只有500万条目,当你将这500万条目与页面浏览量相乘时,你将面对一个非常惊人的大数据挑战。但是因为其现有技术的限制,该公司只能保持三个月数据的有效性。该公司可以通过访问其数据归档来对更长时间进行报告,但是对于实时搜索和分析,该公司只能依赖于过去的三个月中的数据。
为了让其更多的较旧的数据更容易访问和使用,该公司部署了一个大型Hadoop集群,位于其搜索引擎旁边。随后,他们使用Mahout和 Apache Pig等工具来快速和具有成本效益地分析几个月的数据。现在,该公司不仅能够分析谁点击了什么页面,而且还能够分析点击页面的相关性等。而且他们还具有强大的关键字搜索以及发现和导航能力(用于向上销售和交叉销售)。这些功能结合在一起为该公司提供了更深入的洞察力,并且他们还能够将分析信息反馈回系统以进行不断改善。
将这些分析信息反馈回业务同样能够让企业通过利用关于员工是如何利用内容的信息来改善运营方式。企业现在能够确定特定主题的专家,看看谁正在使用何种类型的内容来完成工作等。同样地,这里也建立了一个良性循环,使用系统来提高系统的整体有效性,企业能够更好地进行组织,因为他们不仅理解了他们的数据 (他们从传统商业智能和搜索中获取的数据)的价值,而且知道了其员工的价值。