曙光海量数据处理解决方案
任新勃 发表于:12年10月10日 14:31 [来稿] 存储在线
一、需求背景
1.1.结构化数据
近年来,随互联网规模的不断扩大,网络安全事件呈现复杂、多样化的趋势,这使得分析监控网络所得到的海量数据成为一种日益重要的应用。这种网络数据具有流的特点:定时采集的流量信息和实时分析数据包是否有木马、蠕虫等安全问题的数据以事件记录的形式实时地进入系统,这种累积的数据可达几到1TB/天。通常分析是对一段时间的海量数据执行随意(ad-hoc)的统计查询,要达到满意的响应时间,必须结合应用特征选择合适的并行处理技术。
通用并行数据库把所有数据组织成一个单一映像,利用专用的硬件结构和昂贵的软件来实现各种并行性。其中,shared-everything结构利用大的共享内存来提高数据的命中率,适合对事务吞吐率要求高的OLTP系统,但对内存总线的竞争限制了系统的扩展性。shared-disk和shared-nothing的结构中,处理节点是分离的,各节点协同地处理被分区的数据,因此适合像DSS这样对大量数据查询的应用,但它们受高度复杂的并发控制和处理节点间协作的影响,也存在扩展性的问题。
网络数据管理中,按内容不同,实时监测的数据通常被分成几个子集,如流量事件、特征事件等。由于没有逻辑上的关系,这些事件表之间不存在相互关联。另一部分重要的数据是描述系统配置和监控规则的配置数据,这部分数据总量小且相对稳定,更新操作不频繁。因此针对应用的这种特点,将事件表水平分布到所有处理单元上,而配置表则全复制到所有节点上,可以将最耗时的数据扫描和局部处理并行化,从而大大提高查询的响应时间。由于各处理单元不需要复杂的并发控制和统一管理,这种方式可以方便地扩充处理节点,来管理非常大量的数据,并具有良好的扩展性。
随着存储器密度提高,每单位价格下降;集群系统已经成为了主流的并行系统,它具有性价比高、扩展性好等诸多优点;DRAC基于集群技术,直接将任意查询分解成操作于分区数据的子查询和汇总中间结果的后处理查询,用成熟的DBMS来实现两种查询的执行,从而避免了一般的分布式查询处理器为了通用而引入的复杂性。配合针对特定应用的分区策略,DRAC的方法能保证查询执行的效率。
1.2.半结构化数据
分析师[Richard Winter]认为,企业应保存最详细的数据,以用于宽广的商业战略决策,一般要保存5~7年。据此推算,企业数据量年增长1.5~2.5倍。更加激烈的竞争环境使得企业更依赖于新颖且更深入的数据分析获取的信息,这也要求纳入更多的数据。
摩尔定律断言CPU的处理速度每18个月增加一倍,同样通过若干年的观察发现网络带宽和存储容量增长也都具有指数增长的规律。图灵奖获得者Jim Gray提出了一个新的经验定律:网络环境下每18个月产生的数据量等于有史以来数据量之和。至少到目前为止,数据量的增长基本满足这个规律。据权威机构国际数据公司IDC统计,至2010年,全球产生的数据达9880亿GB,年复合增长率为57%。下述数字可以佐证数据增长的事实:AT&T的网络每天流动16PB的数据,Google 每天处理20PB的数据,Facebook每天存储1PB的照片,
Youtube存储了31PB的流媒体数据。Cisco公司预计:到2012年每个月网络上视频流大约为5Exabytes(5000PB)。除互联网,呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录,摄影档案馆视频档案和大规模的电子商务都需要面对急剧增长的大量数据。
这些海量的数据蕴藏了大量给企业带来价值的信息。在它的帮助下,人们可以发现重复的商业模式,更准确地预测商业活动趋势;发现疾病发作的原因和传染的规律,有效地预防疾病的爆发;掌握嫌疑犯人的活动轨迹,有效地打击和违法犯罪活动等。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。
急剧增长的数据集合也给企业和数据管理能力提出了前所未有的挑战,不再适宜于用当前管理数据库的工具来进行分析处理。这些难点包括:数据的抓取,存储,检索,共享,分析以及可视化等。这种好处和获得的困难的矛盾直接催生了“大数据”这一概念的提出和被快速认同。根据维基本科的定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据来自方方面面,从搜集天气情况的感测器,接入社交媒体网站的指令,数码图片,在线的视频资料,到网络购物的交易记录,手机的全球定位系统信号。
由于大数据问题被业界广泛认识并得到充分关注,目前已出现了相对成熟的大数据平台。这些解决方案中基本分为两大类:互联网企业自建的大数据平台和创新型企业提供的新型的大数据产品。前者代表公司主要有Google、Yahoo、Amazon、Facebook,以及国内的百度、淘宝等,后者则有EMC、IBM、HP(Verica)、Teradata(AsterData)等。这其中深受瞩目的是Hadoop平台,由于它的开源性质和完善的平台方案,吸引了包括Facebook、百度、淘宝在内的国内外互联网厂商来使用这一生态系统构建自己的大数据平台,并参与了这一系统的完善过程。