数据存储产业服务平台

TRS演讲:基于数字纸张的内容检索和数据挖掘

    TRS信息技术有限公司总裁 施水才
  
    我今天汇报的题目有三个主题:第一,数字纸张本质是一种非结构化信息,对于这些非结构化信息怎么处理,值得研究。第二,用于数字纸张的信息检索技术,我个人认为有两项新兴技术对数字纸张的发展是非常有用的,一个就是基于所谓的Native XML搜索引擎,另一个就是联邦检索。第三是谈一下通过中文数字挖掘技术的使用来提高数字纸张的智能化和安全性应用。
  
    非结构化数据的管理已经变得越来越重要,所有信息里非结构化数据占到80%,甚至90%,对这些非结构化数据怎么管理是一个日益重要的问题。IBM公司也提出了数字资产管理、内容管理等等这样一个重要的题目,这里有一个很重要的管理对象就是数字纸张。
  
    非结构化信息管理的难点有这么几点:第一,格式和标准是多样化的。有SEP技术,还有很多其他公司提出的各种各样的标准、格式;第二,它所建立的应用是异构系统;第三是海量。针对这些特点,非结构化数据管理有一些难度。
  
    非结构化信息管理从存储、检索、发布、利用都需要特殊的IT技术,包括海量存储、智能检索、知识挖掘、内容保护、以及增值开发利用等等。内容管理是非结构化信息管理的一个非常好的工具。
  
    第二个问题是用于数字纸张的信息检索技术。信息检索不等于搜索引擎。像GOOGLE等搜索引擎大家都知道,搜索引擎包含着一种特定的信息检索技术,但是信息检索不等于搜索引擎。信息检索从学术和意义来说它的范围远远大于搜索引擎。
  
    信息检索在技术上的发展有几个方向,第一是更加智能化。数字纸张其实是需要智能检索,因为它里面的很多主题要用本体论的方法进行理解,来获得更好查询的效果。第二是个性化的。从用户的分类、行为、内容推荐等等都要求信息检索是个性化的。第三是语言无关,跨语言的信息。第四个特点是普适检索,还有是多媒体的混合检索和内容集成。不同的媒体怎么样用同一个查找条件把相关联的所有内容联系在一起。关于信息检索技术提出Native XML信息检索技术。对于电子纸张应用,用GOOGLE这种技术是不够的,Native XML可以实现XML元素级的文本搜索。对于不同的行业应用,可以定制专用应用,如新闻行业的newsML标准。资源整合门户实现对多达几百种资源数据库的整合,如书生、万方、同方等等这些可以在异构下进行查找。
  
    最后一个问题是如何采用中文的数据挖掘技术来提高数字纸张的智能化和安全应用。比如说传输公文,公文里的关键词是我们事先就定好了的,像自动标引、自动分类,对海量的内容我们必须分析信息的倾向性,最典型的是法轮功,宣扬的和反对的文章里都会有法轮功字样,你不能见“法轮功”三个字就删除。还有对很长的数字纸张(一本书)里的内容进行管理,这些技术都非常高深,需要在数据挖掘上有很好的应用。

未经允许不得转载:存储在线-存储专业媒体 » TRS演讲:基于数字纸张的内容检索和数据挖掘