内容管理:征服非结构化数据
本文精选自《网络世界》之《2003服务器世界》专题报道
文章版权&复制权属于《网络世界》,更多服务器资讯请浏览www.cnw.com.cn
传统数据库应用的不断成熟促使用户和厂商都在寻找如何充分利用历史数据的途径。我们也可以非常清晰地看到以下三个技术和应用热点全部都是围绕着这个目的而出现的。
内容管理:征服非结构化数据
数据库发展到今天只是比较好地解决了自然界中结构化数据的管理问题。对占据所有数据量85%的半结构化和非结构化数据如何管理的问题还在摸索之中。那什么是非结构化数据呢?不能被映射成关系模型的自然界数据通常就是非结构化数据,如常见的报纸、传真、声音、图形、图像数据都是非结构化数据。
在过去的十年内,我们曾经看到过纯对象数据库、面向对象的关系型数据库、数字图书馆、多媒体文档管理系统等等各种尝试,但到目前为止我们还没有一种解决方法能像数据库对结构化数据那样容易的进行存储、查询、分发和维护等操作。尤其是查询操作,针对声音、图形、图像等数据的检索,目前的系统是那么无力。只能根据一些有限的索引或标志信息来操作,与对关系型数据所提供的检索手段相比,真有天壤之别。
作为数据管理领域的下一个战场,全球企业内容管理市场规模为100亿美元。 今天,有超过85%的信息都是半结构化或非结构化数据。业界专家估计,雇员几乎花费35%的时间寻找他们工作所需要的信息。到2004年,95%的全球2000强企业将实施内容管理基础架构,以控制数字化内容和相关成本。内容管理是数据管理的变革,它为客户提供了一种管理、集成和访问从音频到视频、到扫描影像的软件,客户正在捕捉行与列中的数据之外,寻找一种满足其数据管理需要的方法。
IBM应该是内容管理领域的先行者,如今有Content Manager 来作为内容管理平台。而微软、Oracle和Sybase则纷纷在核心数据库平台上延伸对内容管理的支持。
商业智能:汇集多层次发展需求
以数据仓库为基础的商业智能应用正在被很多大型行业提到议事日程上。从技术来看,商业智能在各环节的发展走向如下。
在ETL(抽取、转化和装载)环节,对多种数据源的访问,包括非关系型数据库和大型主机,成为基本的技术指标。数据抽取系统将会把XML纳入数据采集格式的范围; 在数据分析上,越来越多的企业和机构要求其决策分析环境能够提供更为接近实时的数据分析,技术手段主要集中在ETL环节,交易日志的监控、数据的复制成为数据采集的手段。
今天,并行处理加决策支持优化的关系数据库系统仍是数据仓库领域的主角。大家普遍认为发展方向是在关系数据库基础上融合决策支持和事务处理的能力,不过这样的策略或许仍存有争议,毕竟有不少技术人员认为事务处理和决策分析对关系数据库来说有如鱼和熊掌,不能兼得。尽管如此,在关系数据库中加入OLAP(联机分析处理)能力、SQL语句中加入数据统计公式和算法正在被各厂商提供的产品中实施。
商业智能系统的分析展现是技术发展较为活跃的部分。OLAP及其他商业智能的应用以Web服务形式提供,并与企业电子商务门户集成。OLAP和商业智能应用的前端的界面转化成瘦客户端的应用模式(浏览器、Intranet模式)已成为普及性的要求。以XML形式发放商业智能应用的分析结果是新的发展趋势。
数据挖掘的模块、算法和工具将更多地融合到OLAP组件甚至数据仓库服务器系统中。同时,商业智能应用与企业门户、企业应用集成紧密相连。新的商业智能系统不再是一个孤立的应用,它与企业中的其他应用系统将紧密集成。
从商业智能应用来看,目前的发展是呈行业化和专业化。首先,商业智能系统将更具行业化的特点。笼统的商业智能系统渐渐成为概念,客户实际需要的系统则分为银行、保险、制造业、电信等各种领域。并且,每个行业有其关注的重点和分析的模型。
其次,商业智能应用更加强调应用的集成。主要应用领域包括:分析型的CRM,客户关系管理和优化仍将是商业智能应用很重要的一块; 服务于ERP系统的商业智能,传统的ERP厂商都在将商业智能应用或模块加入到他们的ERP系统中;与SCM 集成的供应链管理优化。
数据集成:异构数据源轻松消除
异构的数据源是大部分企业所面临的问题,数据集成,也就是在整合数据孤岛的同时,合并、净化和标准化数据成为企业数据管理领域面临的最主要问题之一。
通过SQL语句访问远程或异构数据库是集成数据的一种方式。除此之外,还包括以下几种方式:自定义接口将信息从一个应用程序传到另一个应用,这能够按照用户需求而精确实现,但创建和维护费用很大;数据库复制,很多产品提供能定期或持续地将整个数据库或数据库的一部分拷贝到另一个地点,复制非常简单,但除了拷贝之外没有处理数据的其他能力;ETL本身是用于创建数据仓库和数据集市,能够将数据从一个位置移到另外位置,并应用规则或表查询功能以某种方式连接或转换数据,ETL功能很强大但非常复杂;Web服务,包括XML标准在内的Internet协议所驱动的方式,用于完成独立的两个系统之间的数据交换,Web服务允许基于SQL的关系数据被作为XML数据来访问,也允许通过SQL访问本地XML,当应用之间是松耦合或无法用其他方式实现集成时非常有用。
当然,数据集成可以采用其中一种方式或以上多种方式进行组合。对于用户来说,不管采用何种方式集成数据,都面临很大的挑战,在整个过程中要非常谨慎地创建应用和数据之间的接口,以保障信息的精确度并满足不同终端用户的需求。