随着开源Apache Hadoop的采用,数据管理软件厂商已发生巨变。现在,基于Hadoop的基础设施的前景日趋明朗,它可以关联结构化和非结构化数据,扩展成本低廉,并能以此获得快速的市场洞察力。 Hadoop和其生态系统在弹性、安全性和易用性上会为企业提供新的能力吗?
现今CIO在利用大量和多样化的数据时,需要考虑的关键技术因素包括:
因素:1、与其他数据库和数据管理环境共存
包括标准的关系环境(甲骨文)和分析数据仓库(Teradata)。警告:数据移动和整合是必要的,但它增加了对各种提取、转换和加载(ETL)工具的支出,也增加了运营成本。
因素:2、存储和硬件
创新的压缩和重复数据删除技术是解决大数据问题的关键。目前在这方面已有很大的进步,我们现在看到的多层次压缩在容量方面比原始数据减少 40倍。然而,重要的是考虑已压缩的数据中有多少最终需要再次膨胀,这将影响你的容量。例如,如果再次膨胀时需要增加30%的容量,那可能不值得把压缩摆 在首位。
因素:3、查询和分析
并不是所有的数据都是同等的,查询和业务分析的范围变化很大,这取决于使用情况。有合适的工作工具是必须的。在许多情况下,快速反应的 SQL查询将足以生成所需要的信息。在其他情况下,深层的分析查询需要一个具有完整的操作界面和可视化功能的商业智能工具。正确部署专有技术和开源 Hadoop,将帮助您的组织实现具有规模的快速分析,同时防止运营成本不断攀升。
因素:4、规模和管理能力
由于企业面对不同的数据库和分析环境,因此向外和向上的扩展能力是非常重要的。简单的向外扩展能力是Hadoop为什么会被企业迅速 采用的原因。通过低成本的服务器集群进行大规模并行处理是关键,比其他的数据管理方式需要更少的专业技能,而这直接影响您对IT资源的投资。