数据存储产业服务平台

张华平:大数据搜索与挖掘:知著见微晓义

  2015年12月10日,由DOIT传媒、存储在线和易会联合主办的2015中国存储年度峰会在北京盛大开幕。作为中国存储界有影响力的年度行业盛会,峰会以“把握数据经济,重塑商业变革”为主题,吸引了上百位存储界的顶级学者专家、数百位产业精英和企业用户出席。

  由DOIT主办的中国存储峰会是中国存储产业界最为隆重的年度大会。十一年来紧贴存储产业发展,丰富地记录了存储产业在各个历史时期的变化发展,已成为存储学术界、产业界和企业用户不可错过的历史见证。

  北京理工大学、大数据搜索与挖掘实验室副教授、主任、博士张华平发表了“大数据搜索与挖掘:知著见微晓义”主题演讲。以下为演讲实录:

  我今天想跟大家介绍的并不是跟存储相关,纯粹是介绍大数据相关的工作,尤其是我们实验室做的一些内容。我的题目叫大数据搜索与挖掘:知著见微晓义。

  关于大数据我相信在座已经听了很多很多了,这里坦率来讲大数据炒作很多,很多东西说实在都是鱼龙混杂,各有各的问题。有人说大数据就是英特尔芯片,有人说大数据就是Oracle的大程序库,有各种各样的解读。作为一个独立的观察者来讲,我来说一下我对大数据的理解给大家看一下。

  我在央视解说过大概四五次棱镜手机监控的事情。它非常简单,原理也很简单。因为我们跟基站通讯,数据里各种各样,什么时间,什么地点,我在哪都有。我后面说的东西不是瞎吹牛,所有东西都是有做实验。这是不是大数据呢?现在我们听到大部分的大数据的概念归根到底是另外三个字,就是数据大,数据特别大。原来我给大家吹牛的时候我有2G的数据,特别厉害,现在说1TB不是更厉害,现在一吹牛就是1PB才高大上。其实没什么了不起,只不过数据存了更多而已。后来我们扩展用Hadoop的平台,对大数据的真正理解从表层数据能挖掘出一些深层的知识。从此可以推断出你个人活动规律,你什么时候起床,什么时候睡觉,生活是否健康,你出国的概率有多少。还可以分析你的社交圈,跟你交往前十大有哪些,哪些企业家他的背后是哪些官员跟他关系比较好,一下就出来了。如果我们从金融角度做风险控制,哪个企业到底什么状况很容易清楚。我想通过这个例子告诉大家我理解的大数据。比如我今天拿了100亿数据,就是一天的数据可能会不精确,如果给我一年的数据出错概率很少,给我五年的数据可以高概率推算出。大数据的就是量变引起质,大量数据用简单的方法得出的结果比用小数据的方法还好。

  这两个我不解释,是两种非常以讹传讹的解释,一个是WIKI,一个是来自维克托的所谓大数据的开创启蒙运动者。这两个都不科学,用的是必要条件,而不是充分必要条件。实在找不出各种解释的前提下,我去年出了一本书在学界的影响力还不错,是我们这个行当最畅销的一本书。我在书里提到我对大数据的理解,我强调几个东西:第一个大数据强调微观数据,强调它的多样性和变化,强调它的存量的认识。还有用科技革命,让数据说话。大数据是新的概念把原来的理论和数据整合,产生一些新的东西。今天讨论的数据经济是由此而来,不是简单的概念炒作。

  这里用这张图给大家解释我这个理念,其实这里面我们看到11张图片,我们现在只能给它定义为信息,所谓信息就是解决了你的一些不确定性的一个问题的数据。你看完之后就知道他长什么样,这是信息。我们在前大数据时代,我们做的大部分的工作都是信息处理,我们的财务管理系统,ERP、CRM都是信息,跟我刚才说的信息存进去,一个方法能够把他取出来,然后给你看,仅此而已。但是在大数据时代,大家能够比较清晰的看到的是我们将11个表上价值不高的普通的信息最后综合到一块,产生了一个知识,该知道这个人有重大的贪腐行为。这里其实就是信息的碰撞叠加,我给它取一个名字就是1+1>>2。

  这里又说我们的一个观察,70年代计算方式的革命,90年代传播方式的革命,大数据时代是决策方式革命。怎么理解?我尝试做了梳理。决策分四个要素,第一个就是决策主体,就是谁说了算,第二决策的依据,第三是决策的机制,决策的效率问题。小数据时代,我们就拿电影为例,这个电影《富春山居图》,它的唯一卖点就是刘天王和林志玲。这个片子口碑特别差,最后他的票房还不错。原因很简单,神丑效应,大家想看看到底烂到什么样,大家就去看。接下来这个没有那么幸运《失孤》,它的决策模式很有意思,他是这样子,我的制片人是决策主体我说了算。我天生相信刘德华是票房神话,只要有刘德华,票房一定大卖。最后上映两周之后,既不叫好又不叫座,票房特别差。因为片子已经上了两周之后,损失已经拉不回来了。这个决策模式绝大部分机构都这么玩,老板拍板。

  其实刘德华演《失孤》,唯一卖点就是你们想不想看看刘天王装扮成民工是什么样的。现在在影视里面,中国现在大部分的决策模式不仅仅是影视,也有一个例子就是《老男孩》唱《苹果》那个,这部电影非常受欢迎。我分析整个过程非常有意思,他之前在优酷上拍了40分钟的视频,大概传了有一年左右,300万用户看。就是因为有这些人做底子,最后决定做这个电影。它的决策模式,想拍这个电影就有300万已有的用户,他知道300万用户清晰的需求。原因很简单,我看电影的时候往前拖拽就说明我对这个桥段不喜欢,往回找就是特别喜欢个桥段。这是为数不多的小成本制作的方式,效果非常好。决策模式就是对用户洞察的非常的清晰,几乎可以预测到谁对我感兴趣,知道这些在什么地方,有什么共同点。后面决策过程当中是非常实时来推的。影视类的大数据就是《纸牌屋》,西方尤其是欧美电视剧模式是收集大量观众的反映,决定我下一季是让他死还是活,有的大反派大家太喜欢他了,所以上一季死了,这一季又让他复活。

  这里有很多标签,我把它中国话讲一下,就是中国常说“多、快、好、省”,数据比较多,产生比较快。我强调这两个字,一个是“省、好”。大数据来了之后花钱建大数据中心,这个思路是错的。大数据云平台之后,美国大量减少他的数据中心,越来越集中,他是效率越来越高。我们实验室这么多年的实践,我们现在主要做两大块,一块是国家安全,一块是金融的风险控制。我们的基本体会是在用大数据的平台,其实比传统的IOE实际上它的效率要高大概3倍以上,我的成本可以降原来1/2,甚至还不到。尽管有很多人来游说,我们把开源的东西真正玩到极致,也能做到非常牛。今天我们说的阿里也是开源的基础上改造。我们还要更多强调价值,数据本身挖掘他的真正的价值出来。这里的一些区别,不花时间讲了。

  讲一些技术相关,大数据丰富庞杂,很大的挑战。如何做的?就是知著、见微、晓义。什么是知著,就是这个图一样,这个是大数据非常好的抽样的模型。大数据就是无数个小数据完全宏观的结构完成。我们分析特定的事件的时候,我们可能一个小时之内要涉及到200万人,我一个小时要出报告。这个前提下,我不可能每个人详细做洞察分析,那是绝对做不到的。我们宏观分析非常重要,我们的算法黑快速的了解他们这些人主要的观点是什么。大概多少人的偏好是什么,这是我们最关键的。其实在座你们去做你们的业务应用的时候也是这样,我们宏观的洞察你们的受众的客户,他们的特征特点和偏好,可能比某一个微观分析更加重要。在宏观已知的前提下我们做一些微观的洞察,比如说这里我们会做一些关键节点的分析。晓意是做语义分析,做数据库分析,可以做很多工作,这是不够的。我们大量的数据比结构化数据要十倍以上的数据或者是100倍以上的数据是非结构化的数据,比如说文本、语音等等。

  做语义分析的话,这是我常用的几个桥段。中文语义理解里面,不理解到位的话问题很多。比如说中文的语义的理解,英文也有这个。比如说英文的语义理解Who?接下来这样的情况同样存在。这里面最终极的问题就是机器理解自然语言,我们想说一句英文,电话那边出中文,然后英文回答,互相翻译。我们想做完之后,这个问题很难,大家会看到很多机械理解的意思。这是语义理解的重要性,其实我们今天对客户分析,我们做大量的工作,其实我们客户真正的含义想要做的问题,我们了解还不够,这里其实有很多的挑战。

  怎么来解决这个问题?我想告诉大家的是我们对客观时间的理解,是要映射到思维,所有思维要用自然语言表达出来。无论是书面形式还用口头形式,这里面之间有一个衰减效应,是非常厉害的。怎么来解决这个问题呢?我们现在更多是大数据的模式,可能某个人理解有偏差,不可能所有人理解都是错的。我们大家所有人不同的理解,他的共同的交集,最大的交集就是对客观事件比较正确的反映。

  我这里提了我的想法,就是大数据更大意义上是非结构化内容的理解。为什么这么说?我们结构化的数据现在不需要花太的功夫,原因非常简单。因为我们的传统的结构化数据以后关注数据库以及数据仓库的故事,这个问题解决的非常的OK。我们以讹传讹的数据挖掘的故事,啤酒和尿布的故事,那个故事根本不存在。那个我们现在有一些成熟的数据挖掘的工具很快就能计算出来。我们在大数据时代和我分享的是更大意义上的非结构化的理解。我用这张图表达我的理解,大数据的三个V是通过技术的手段我们要达到一个大的洞察能力。谁,什么时间在做什么样的事情,这个后面我们可以做很多的模型。

  在这工作我们在这块做了有15年了到现在,稍候我会给大家更多的Demo,不是看这个。这里我们开了一个平台,把对非结构化内容的整个语义的理解我们全部把它整合成一个共享的平台。目前为止这个平台有全球30万机构在用这个平台,包括华为,其实包括英特尔我们中国也在合作,包括人民网。大家能看到我们比较厉害的地方,有一篇文章是十八大报告,自动告诉你十八大报告的关键词中国特色社会主义、改革开放、科学发展观、生态文明建设等等。这是大数据的聚类技术,我们把所有非结构化的文本会自动的发现有一类是甲流的问题。我们整合一些大的平台,这里是给一个杂志专门做的,后面会给大家发更多的Demo给大家看实际的东西。

  我们的搜索引擎其实和百度是完全不一样,有很多不一样的效果。这里有很多语义智能的东西在里面。比如我们可以直接搜索一个人的负面或者是一个公司或者是一个产品的负面信息。大家看到一个例子,这是我们的系统架构,通过我们的系统会索引,一旦用户有需求的时候就可以推送给我们用户。我们给开发人员开发的架构非常的简单,就是SaaS API你只要知道我的服务器和端口在哪,按照我们的格式提供搜索语句就可以了。我找到信息就可以算出来,我找所有的姓“张”的人,要求Content字段内,同时出现统计局、中国统计局,CPI,骗人、砖家,且两者之间的距离必须在10个词之内。看一些其它的效果,对所有结果我们会自动的分类,这个包含土豆的所有标准有哪些类别,每个类有哪些文章可以自动的筛选,包括维吾尔语的搜索引擎。

  我们做了一些案例,这是有一家企业用我们的,每天大概有500G所有访问日志,我们会把每个人看的内容重新爬取,爬取完之后对这个人做画像,他是科技迷,喜欢旅游。这样的人你给他推车和体育广告都可以,这个人你给他推养生的广告。每个人的偏好还有他的各个特点。这是对两千万微博用户的度量,这个数字没有任何的水分,所有水军、机器粉都刨掉了,这是明确有人关注,可以看到这些人在网上自我表达的情况。我们会做很多人,微观个性的观察。这是2011、2012、2013年我的偏好,包括我们所有的行为大家可以看到,我们通过这种行为矩阵可以自动的计算出他每年自己的各种各样的行为、特点。我们这里面计算出他的周一和周日跟其他的时间是完全不同的。所以这里面能够发现他的一些特点,其实基于这些数据,我们可以推理出他的状况。

  包括我们用这个不同的行为可以推算,大家看任志强和潘石屹是接近度最高,76%的相似度。这里可以给他们推荐朋友,我们知道他们本身就是一个圈子。包括这是我们的地震的数据,这是对一个人的情绪分析,这是一个情绪波动很大的,我们负面情绪、正面情绪是不一样的。我们分析一个人的价值观,可以看到他不同的人,这里我们对薛蛮子和郭美美分析的非常的到位。

  这里给大家做一些演示作为结束,这里是我实验室的官网,NLPIR。首先我会从新浪今天头条新闻,用Url输入到我们这个系统,这个系统要做几件事,快速给大家看一下。第一件事我们会把这篇文章整个采集下来,采集完之后把广告垃圾都扔掉,真正的干巴巴的干货、内容自动的抽取放在内容框里面。这个东西一旦完成之后,大家看比较有意思的效果。大家能看到习近平我们会标他是一个人的名字,主持了什么样的会议,包括我们不同的颜色是表示不同词的类型。比如说/t是时间,这里表示是一个人,中央军委是一个机构,我们这里会自动来算,所以这里切分的理解都是非常的到位。我们还会自动的发现我们在讨论一个什么样的新的概念,教育要对外开放,讲到了改革任务生态保护等等。这是我们在以前没有看到的。

  接下来我们在这里面还可以来自定义我们的词,我就是干农业,可以定一组农业的关键词,按照我的规矩来,这都是可以改的。这个跟大家说一下华为新款手机里面背后跑是我们的东西,我们会对衣食住行的东西会用这套系统自动能够把他分析出来。因为我手头几乎有中国所有美食的名单都在这里。

  这个文本可以拖拽,说到的人有这些,包括说到这些单位,这些机构,也包括因为这个文章是习主席说的,作者我们把它归结为习近平。包括这个文章的主题,我们这里都有完整的分析。这里的地方还有关键词。我们在这里面大家能看到我们会把这篇文章的名词、动词、形容词自动计算。每一次政府的工作报告,网上有很多文科专家开始说习主席说改革说了多少次,有一回我发现他多算了两次。但是我们的系统自动帮他算,名词、动词、形容词,改革说的并不多,这里包括小组,包括他个各样的分析数据都是有。这里是有不同的展示的可视化的效果,我们可以把它切换成这种可视化的回旋图。我觉得这个结构不好,可以拖拽不要,换一种展示方式都可以。关键大家可以用我们这套系统,背后有一套开放的API,嵌入到你们自己的系统里自己用。这里会自动分类,这个文章主要是讨论经济问题。接下来我们会做一个情感分析,这篇文章主要是正面从91.8%的概率是正面文章。这是讲的对习主席的正面的评价是94%,所以他的正面度更高。类似技术可以发现不同人的负面信息,包括产品的负面信息,这是对这篇文章的主题分析。大家可以看到这个文章主题是什么,也可以换成不同的方式去展示。

  我们来看看有一个相对比较酷的小技术,改革,改革会通过背后有10G多的数据,会对他先做第一层的关联联想。大家能看到说改革说的最多的是变革、执政、市场化,这是改革。他关联的词市场化、行政化、简政放权,每个词之间都有关联性,关联性都可以算出来。这种方式,我们可以计算出不同领域各种各样的内容。当然我们还可以一直往下扩展,背后能够把所有概念建立一个庞大的网。这里是繁简体的转换,还有自动打拼音,自动摘要。用两三句话把刚才那么长的内容总结出来。

  我们做第二个Demo给大家看一下就是我们的搜索引擎,这是给国家电网做的。我们搜索引擎比较好玩就是你可以直接问问题。我们会把刘振亚在十年报纸上出现所有的结果,大概两千篇文章自动搜出来。我们会把他2000篇文章自动聚类,第一个大问题就是特高压、教育实践活动、智能电网、全球能源互联网、学习实践活动,用这个把他十年的活动都做一个总结。

  接下来给大家看一个时光机的技术,大家来看到这里,这里我们的横坐标是从07年到2015年,我们把每一年这个人主要在琢磨什么事,我们会把他的主题完整给大家做一个推演。这里推演的非常准,比我自己写的工作总结还要到位。这里可以看到概念之间的变化。下面相对简单,不说太多。

  右面我们又能够发现一些新的好玩的东西,第一个我们会发现一些新的概念,比如说这个人我们会发现互联网的概念,跟他相关联的人有习近平、李克强,还有一个人叫做舒进标(音)。还有姚雷,大家知道这个人的运用的技术是什么。包括我们用同音的方法,可以分析出各大公司,包括英特尔、华为你们主要用的媒体是哪些,跟你们关系比较好的媒体是哪些同样可以计算。后面还有一些概念扩张相关计算等等。

  我今天的演讲就到这,我最后一页就留下我的一些联系方式。谢谢大家。

未经允许不得转载:存储在线-存储专业媒体 » 张华平:大数据搜索与挖掘:知著见微晓义