IBM中国研究院信息管理与医疗健康首席科学家潘越引用了一个Gartner的数据,调查大数据对企业来说是不是很有价值,大数据的项目是不是一个成功的项目。有不到1/5的企业的CIO说,很确定大数据对他来讲是一个有价值的投资,现在已经看到了效果。更多还是处于不确定或者是观望要不要投资的阶段大数据或者是小数据还是数据,既然是数据对一个企业来讲就要涉及到数据怎么去管理,怎么样去利用数据产生商业的价值的问题。所以,我们要放在这样的一个环境里面来理解大数据和理解大数据的技术。
看大数据和传统的数据有什么不同,一般来讲有两类的数据,一类主要是在社交媒体还有一些用户的活动产生的数据比如说一些搜索和它的lug等数据。第二类是机器产生的数据,包括了RFID的设备,IPS的设备,各种各样的智能水表、电表、气表,还有因为智能手机的采用,很多的影像数据,这些都是机器产生的数据。为了理解这些数据的价值和特点,把数据放在企业管理的框架下来理解。传统的企业管理侧重于商业流程产生的数据上,比如说用户的信息、市场的信息、产品的信息还有供应链的信息。刚才讲到的用户产生的数据和机器产生的数据,看到也是在很多商业活动的边缘产生的,可能不见得是传统的商业活动,可能是通过电商的方法来产生的一些在线的数据,可能是通过物联网的手段扩展它的信息采集点产生的数据。它扩展原来的商业活动的范围。同时有不同的特点。机器产生的数据实时性要求就会比较高,用户产生的数据有很多是文本、图像、影像。
这两类数据和无原有的数据结合起来,产生商业智能分析,通过这样的过程让这些数据来产生它的价值。提到了数据的几个类型,大数据首先代表的是数据产生的量比传统的量大很多,以至于说传统的G级别的或者是T级别的数据存储和管理的方案目前看起来都不太合适,或者是性价比不够好。第二个V是针对机器产生的数据,传统的分析的周期原来可能都是以月、周、天这样的时间来做分析的,现在有很多的分析需要做一些实时的决策。所以这些数据关键是速度。
第三个V当然是涉及到用户数据的多样性。在IBM研究部门提出来第四个V,就是这种数据里面包含的不确定性。数据的不确定性和数据的多样性之间可能也有一种天然的联系。但是也不完全地等同,一般来讲用户产生的数据这些文本数据本身包含着一些歧义和模糊所以有很多的不确定性,机器产生的数据我们也不能当成不确定性,因为测量的过程中还会产生很多的误差,所以有很多的不确定性。针对不确定性,以前都是在分别不同的分析模块里处理,单独提出来不确定性可能需要有一些共用的技术来对他进行处理。
IBM有什么样的经验去处理大数据,在过去的研究活动中也处理了大量的复杂的数据。大家知道Watson系统,这是一个自动问答的系统,在2011年智力问答的节目中战胜了人类选手。这是人工智能的里程碑,它凭借什么取得了这样的结果,它后面是有很多的非结构化文本的分析和处理。可以和原来的专家系统和其他系统的区别就在于它的知识获取的能力。所以可以处理维基百科、大英百科全书和IMDP等web上的内容,使它变成自己知识库的一部分,同时也可以学习在过往几十年内人类选手在同样的智力问答节目中的表现,和正确答案、错误答案。从过去的事例中学习到经验,从而帮助提高他回答问题的准确度和自信度。
这一类的数据有什么样的特点,首先把问题拿来看了一下。这个问题过往几十年积累了几十万个问题,我们从中挑了两万个问题做类型的分析,把问题都会有期望的大安的问题,期望回答的答案是人或者是动物或者是地点、时间。这个类型往往可以通过问题点重点来标志。可以观察到这个图,这是一个很典型的长尾的现象,最频繁出现的问题的类型,在整个问题中出现的频度。我们传统的方法是不是能不能建数据库,把这个问题翻译成查询。我们看这是不可能的事情,我们不可能把世界上所有的事物都给它在数据库里建一条记录,这是不可能的事情。
退而求其次,不存储个体的数据而是存储关于类型和关系或者是关于之间的一些逻辑联系的表达式,这也是不可能的。因为这个类型实在是太多,甚至于无法穷尽所有的类型。对这样的挑战,后来我们采取的一个策略是我们不试图建立数据库,而是在问题处理的过程中实时地分析大量的文本,然后还有一些网上的结构化的知识来做答案的产生、答案的评估、答案最后排序的过程。最后我们还需要把整个的时间控制在节目要求的3秒之内。
在这样的一个架构下,到底有哪些技术能够解决这个问题。很不幸对于这样的一类问题我们很难找到一个单个的技术来满足这样的挑战。事实上,在最后waston的架构下大概集成了100个左右的算法,包括了自然语言的分析,包括了搜索的技术,包括了一些知识的表达和推理的技术,用在假设生存和假设的数据的评分,还有答案的过滤,还用到了很多机器学习的方法,很多个模块都可能用到自己的机器学习的方法。另外over all的话,如何搜集证据给证据不同的权重,这是要根据过去比赛的一些记录来学到评分和排序的模型。所以,真正的挑战在于如何把这么多的技术集成在一个框架下,让他们之间相互增强而不是相互抵消,是这样的一个架构,这是我们学到的一个知识。
另外,在这个过程中很重要的一点是,不管是用什么样的技术,我们都会把这个技术和最终要达到的目标结合起来。这包括了三个方面,准确度、自信度和速度。跟这三个指标比较,看这样技术会不会对最重要的指标有贡献。我们把相应的战略应用到企业里面的信息管理上,这样就会有一个更加全面的视角。我们看到同样的对企业来讲可能很多的客户也在才能多种技术,比如说做预处理需要由于处理的技术,结合结构化和非结构化的分析有很多的技术。结合历史的数据和比较实时的数据,我们也需要不同的技术。还有,对一些探索性的分析我们也要采用不同的分析的方法。
所以,对企业里面的数据管理会更多地从一个信息治理的角度来看,然后在这样的上下文来看做数据分析、做大数据的位置。大体上功能上的划分我们会把跟信息管理有关的活动分成信息的获取和管理,这里面会把数据内容还有一些碎片的数据采集和管理好。
接下去需要对这些信息进行整合,这个整合到现在为止基本上一个企业里面好的数据会存储在三个主要的数据库里面,一个是交易的数据;第二是用于分析的数据的仓库。第三,关于企业里面的关键的信息资产,比如说产品和客户,这些的一些数据我们做在主数据里面,用来为其他的数据提供参照。当然,有了管理和信息之后可以支撑交易型和协作型的应用。在此之上,我们还有很多做商业分析的应用。这些商业分析的应用有的可能是直接看数据的原始的内勤,所以要提供一个内容的服务,传统的数据得多维分析可以跟数据仓库结合在一起,提供很多数据的keepmodel。大数据是在做数据的挖掘的途径下,大数据为传统的数据分析的方法提供了不同的视角。
整个的技术是在不断的演变过程中,因为现在有很多的技术是在看一些多维分析是不是能够在大数据上来做,或者不是用昂贵的存储的解决方案,甚至是能不能和大数据的平台共享一些虚拟机。这些技术还都在演变的过程中,也许过两三年这个图景会有所不同。现在的大数据阶段,对企业来说支撑它的运营和它的创新还是这样一个比较平衡的架构。
利用大数据技术加速研究和创新进程
医学的技术从它的产生到最后的临床上大规模的采用转化的时间和周期。现在在医学上很多讲转化医学,有一些相似的地方。心绞痛的诊断到最后的采用大概花了2400年的时间。青蒿素这是中国对世界医学的贡献,从它最早有采用的记录到最后真正生产出来青蒿素的药大规模临床使用也用了2000多年的时间。从那之后,大家再看一些新技术的采用呈现出越来越短,从研究产生的结果到最后时间越来越短的趋势。像书写大概是100年前出现的,它用了大概20多年变成了医学的常规。盘尼西林的使用是用了20年的时间。如果按这些的趋势来看,到2025年左右会出现医学的基点,很多的技术出现之后马上就可以投入临床的使用。
为什么能够有这样的趋势出来?背后的原因是什么?多多少少跟大数据有一些关系,尤其我觉得近些年如果能要保持这样的创新的速度,可能会依赖于很多大数据的技术。过去医学的研究比较集中在用实验的数据,但临床实验的周期是相当地长,分析的话也要花相当长的时间,但现在随着医学影像的技术、电子病例和电子健康档案的采用,还有基因在临床中间的使用会产生大量的数据,所以很多通过临床实验能够得到的一些结论,可以通过一些数据库的研究来实现。比如说一个药是否有效、是否有副作用,可以通过分析获取大量的历史记录来判断是否有这样的问题,而不是通过招募上千个人来进行临床的医学实验来证明这件事。所以大数据对医学的创新有很多的作用。现在提到的第四范式是在实验研究和仿真之后的新的科学研究的方法。
为了支持这个研究和创新的活动,我们做大数据可以有一些什么样的方法来支撑这样的活动。这块用一个词叫insight,以前科学家和实验室的工作人员多数是以一个项目为单位,在项目里面采购他们的设备做实验分析数据。这个过程可能是相当地长,而且比较昂贵。它需要把数据获取提成然后加强在一起,需要按照很多不完整的信息,需要采购相应的设备来管理数据,需要从书本上的一些模型自己实现,实现完了之后再分析它自己的数据,然后做很多实验分析,理解结果,把这些结果再变成论文分享给其他的研究人员。
所以,可能一个不是做计算机的科学家要花很多的时间在IT的数据管理、系统管理、分析等领域。而且这些项目之间都要做重复的事情,这会占用大量的时间和金钱。IBM对管理这类研究和创新的活动提出了一个做法是提供一个Plug-and-Play的环境,这个环境集中了一个数据集,人口学的数据、地理的数据,这些数据是公开的,不用每个人都把这个数据拿过来再build一遍。这个数据不仅仅获取或者关联出来。第二,对数据管理和分析建立一个共用的平台,使得大家不要重复地建设模块。第三,分析是可以共用的。第四,提供一个协作的平台,使得不同领域的研究人员能够在一个环境下观察一到数据。
这些是我们的做法,具体来讲成立了一个insitute for massive data。通过一些环境来支持,比如说人机界面的专家、信息管理的专家以及各种各样其他领域的专家结合在一起。上面的应用可以支持能源的、水资源的医疗卫生的和各种各样的商业风险分析等一些研究。
首先的平台并不局限在IBM的研究部门内部使用,而是把它变成了一个开发共享的环境,所以很欢迎大学在这样的平台上进行共同的创新,也包括了一些数据服务的提供者把它的数据共享在这样的一个平台上,还有就是一些工业企业把他们的问题放到这样的平台上,政府也可以把他们的问题和他们的一些希望支持的一些活动放在这个平台上,IBM在后面提供一些架构和分析的服务。
最后,潘越结论三点:
第一,大数据并不是自己在自己的silo里面,可以跟企业里面其他的数据管理、信息分析结合起来。
第二,在过程中会采用不同的很多种的技术,不光要看到技术的有效性,可能还要更多地想一下这些技术结合在一起会产生什么样的价值。
第三,像大数据这样的Platform应该是一个共享的平台,应该是为大家创造一个协作的环境。