2012年12月,2012年中国存储峰会在北京隆重举行,民生证券信息技术总监,颜阳先生,为我们带来金融行业大数据挑战的主题报告。颜阳从五个方面介绍了金融行业的大数据挑战。
大数据的定义是什么?
“昨天网上搜集了一组数据,第一个是我们的实体商店,第一百货王府井销售额是150亿,我们再来看一下天猫商城2011年的交易额,不是一个数量级的。一千个亿,这一组数据表明了从我们的维度来讲的话,就是说他的量,我们大数据首先大家肯定要考虑建一个量。我们看一下天猫商城2012年11月11日的,这个数据大家都比我清楚,大概是191亿,当天的销售额超过了实体店一年的销售额。” 颜阳讲到。这说明什么问题呢?网上购物基本上是单笔金额不太多。但是如果说达到190亿的销售额,实际上处理速度是比较快的。从这个维度上来讲的话大数据是体现了速度,这个案例实际上是说明我们大数据是比较关键的,它是不同类别的,包括结构化和非结构化的数据。
大数据里面,我们觉得这三个维度是同样重要的。既有速度,又有数量,还有类别,集合在一起,就变成了中间复杂度更高的这样一种情景出来。这种情景出来以后我们怎么样去解决呢?由于消费者和生产者的概念融合,使得我们终端用户的角色也发生了变化,也就是使我们终端用户,既可以消费数据,也可以产生数据。
这里面是有几个观点给大家分享一下。现在大家说大数据是新时代的石油,有些方面是正确的,因为说大数据是新时代的石油,说明它还有很多价值没有挖掘出来。比如说石油是需要勘测的,这里跟我们大数据应用是关联的,我们数据一定要找到有用的数据,才能够放到应用空间去。第二个是我们的数据需要挖掘的,挖掘需要相应的处理模型跟我们数据做关联,我们的数据是越挖价值越大的。所以我们说大数据是新时代的石油,应该是有某些方面是正确的。
大数据为存储厂商带来的机遇
存储厂商提出很多应用方案,需要和用户进行对接。但是对用户来讲,要考虑投入和产出比,这些时候,数据需要有良好的架构来处理真正的大数据,这种比较复杂的应用。现有的解决大数据的问题,一个企业如果数据都是信息孤岛,你要处理大数据基本上是无法实现的。因为大数据处理的话,一个量大,一个是效率比较高。
最后一个数据是安全,特别是提到了大数据,我们特别关注的是安全。因为金融行业在做大数据,包括云计算的推进的话,是相对比较低调的。正是因为安全的问题的话,他困扰着不管是我们的用户,困扰着我们的厂商,也困扰着我们的使用者。那么怎么解决现在大数据遇到的这些问题呢?第一个,我们的应用要进行切分,OLTP和OLAP放在一起传统的解决的话,要做数据分析效率提不高,为什么?这两种应用是有很大的质的区别。
比如说在线的事务处理,很多有操作,分析上处理的话,主要是查询,查询是对磁盘的数据的交换,这里面是差别比较大的。
第二个是解决磁盘的写盘的效率有很多方式。第一个是提高转数,提高转数也不能完全解决问题。于是现在有很多的技术,包括SSD的技术,随着生产成本降低,可能应用得比较多,但是现在来讲的话,成本还是比较高。于是我们用户在解决的时候,可以采取一种混合的模式来解决我们的应用问题。
另外,第三个是分布式存储和共享式。我们在一些OLTP中多半是采用共享式的,但是在做OLAP的时候,很多用分布式的方式来解决,这里尤其是对大数据的应用非常重要。
大数据的安全很重要
那么,在安全的问题上,如果说我们将来的大数据放在云上面的话,一定要考虑安全,安全有两个方面,一个是把公共的数据放在公有云上面。但是客户的数据,私有的数据,客户的资金情况,我们的股票的余额等等商业机密的话,应该放在自己的私有云上面,现在做得越来越多的是混合云的方式来实现的。
这里简单说一下网络存储里面有很多的数据方式,包括网格的存储也是有比较好的应用的前景。当然还有其他的存储模式。随着我们大数据的应用落地越来越多,我们会有很多的解决方案。
在行业里面,在应用我们的新的技术和架构,进行相关的服务,那么,现在的行业应用说到这么几个特点,不知道大家有没有关注。前两天在开中央的金融工作会议,估计那边可能会有一些相关的人士的变化。但是,整个的大金融里面,包括证券、银行和保险,接下来的从2013年开始发生了创新,跟我们的想象,远远超出我们的想象接下来我们会简单说一下证券行业是怎么样变化的。
另外一个是新媒体和社交网络的应用,在我们的行业里面也越来越多了。大家最早从微博,然后再从网站上获取相关的大数据,垂直应用到我们的金融里面,现在的案例是逐渐的多起来了第二个,金融业格局的变化,“我九月份在一个杂志上发表了我的观点,就是说不管我们承认与否,从某个角度来讲,信息化在整个金融企业中的地位是改变了金融企业生态。怎么来讲,就是说金融企业肯定是要有IT来支撑的就是说金融企业必须有IT属性的。但是企业的IT属性达到了一定的程度,这个企业就具备了金融的特质,也就说具备了金融的特征。”
实际上的话,我们行业发生了很大的变化,我们的行业创新是以大家想不到的速度在发展,现在的行业马上要推出,包括虚拟股权的交易,这种带来的变化,我们很多中小企业都是比较容易的涉足到资本市场的。以前是要上上交所,或者是深交所的。以后有很多的渠道了。
探测石油要讲到好的数据源,要使用我们应用的数据源。在这个大数据的前提下,一定要找到一个好的处理架构。第三个我们的处理流程是可以固化的。第四个,我们的处理的主题一定是不能太泛,太泛的话到了后面是不能收敛的。第五个我们设计的算法一定要简单,要快捷。第六个,我们可以通过各种手段进行发布,使得我们的客户比较容易想到这样的一些服务。“我这里具体讲,比如说现在我们利用大数据的数据源来解决现有的,大家在网上的分析和我们的综合指数的一个对比。这里的话,我们可以通过我们相关金融性网站和微博进行相关的信息采集。第三个是一定要做一些预处理,比如说广告和垃圾信息,这些信息的处理都有相关的原则。”
然后要建模和分析,这是比较难的,大家知道中文的处理和英文的处理是有很大的区别的,相关的拆分字词的话,含义是不一样的。这有一个历史积累的问题。我们可以选择三级和五级,最后我们利用标准发差,刚才讲了很简单的算法,都可以得出大家对我们股市的研判的分析程度。第五个通过我们的方式把用户提供给客户。这个做出来以后有什么用处呢?
第一个,我们的可混拿着这样一个信息的话,多了一种给我们提供决策的信息源,以便他可以进行资产配制。如果比如说前不久有一些白酒出现了一些问题,如果说我们在第一时间能够知道这样的信息的话,我们可以对我们的手上资产配制做一些调整。这样的话只要比人家快五分钟和八分钟。我们的损失就会减少到最低的程度。第二个是我们可以引导自己或者是客户做一些交易的筛选。第三个,我们的客户也可以用这些数据来做一些诊断。比如说360在电脑上面可以提供一些基本数据,客户可以进行分析和诊断,也可以进行一对一的服务和诊断。最后一个我们可以把这些数据定制成一种产品,进行一对一的服务。
所以说这样的一个简单的应用,当然还有很多的路要走,因为我们在网上的数据源受到一些因素,比如说人为的因素和其他的不可预料的因素的影响,使得我们的数据源不太稳定,或者是产生误导,这需要时间的积累,国外已经有案例,中国的舆论导向。大家的市场化程度不高的情况下,通过这种应用的话,它的效率可能会更高。
大数据机遇和挑战
第一个是金融行业要进行产业升级,金融行业学习了工业的自动化,使得我们的产品生产线也是在进行产业的升级。不同的原料可以产生不同的生产产品。于是包括产品的生命周期的控制,我们的客户的生命周期的控制,以及我们的服务的生命周期的控制都要体现出来。
第二个是敏捷化的服务,前面讲了,要真正做好数据化的服务,必须要有我们懂得IT技术,懂得业务的人进行主动的服务。所以说这种敏捷化的服务,就给我们提出了很多的要求。
第三个,运维发生变化,以前的我们的应用系统都是属于通过项目管理完了就结束了,所有的运维的周期的话,都是和业务来做,以后的数据必须要运营的。所以说我们的IT也要主动的站出来服务。
第四个是传统的,哪怕企业建成数据中心以后,到了一定的时间拐点,一定要上升到数据化的数据中心,也就是说要和互联网打通,这样的一打通就是我们所说的大数据的落地时候到了。
第五个是大数据的商业智能,实际上这是现在有很多的实战,客户的流失分析必须有相关的支持。这种数据拿过来以后我们要进行挖掘,挖掘完了以后找到可以影响它的相关因子再分析,分析完了以后就分解到我们业务方面,改变我们的业务模式。
颜阳最后讲到大数据的出现,有机遇也有挑战。可能在将来的时候的话,我们在大数据的应用的话,一定是跟云计算的应用是结合起来的。当前云计算的推进遇到的一些瓶颈经过大家的努力,未来一定会融合会越来越好。