传统的银行、保险行业的人工柜台、信贷申请、承保和理赔等业务除了在数据库中记录交易信息,往往也会产生大量的非结构化数据:身份证照片、纸质文件扫描件、取证文件扫描件、现场照片等,依据金融行业相关法规要求,这些文件需长期保存,以便于后督审计和避免可能存在的法律风险。
随着互联网金融的迅猛发展,金融行业的竞争日趋白热化,越来越多的金融公司希望金融科技能够帮助企业降低揽客成本和客户服务成本,提升办公效率和风险评估效率。为此,各大金融机构竞相实施金融科技项目,如:智能化柜台,降低营业网点业务开通成本;无纸化柜台,提升柜台工作和服务效率;理赔智能手机客户端,提升用户理赔效率;智能化信贷审核,提升风险评估效率,降低人力投入成本;基础架构云化、容器化,提升基础资源的利用和管理效率等。
这些新型金融科技的背后,显而易见地会产生海量的图片、文档、音频和视频等非结构化数据,其文件个数和数据量都呈现爆发性增长,对原有的存储系统架构带来了更多的新挑战。
海量非结构化数据带来的挑战
对业务部门来说,海量小文件的访问性能至关重要,直接关系到终端用户的体验,而一个股份制银行省分行的柜台系统、信贷系统每年会新增上亿个文件,大量小文件对文件存储是一大挑战,而很多银行已经在考虑如何实现文件大集中。
而随着VTM(远程虚拟银行服务系统)、双录系统的上线,存储容量需求高速增长,如保险公司银保的双录数据半年即可增加数百TB数据,存储是否能够提供高吞吐能力,来保障音视频文件的读写性能是重要的关注点。
大多数金融机构已经采用分布式数据库、大数据技术,来实现历史数据的在线统一存储和查询,而非结构化数据的存储规模可能会达到PB级甚至EB级,在这种情况下如何实现数据的统一存储和管理、历史数据的实时查询、未来的大数据分析,对存储高度智能化的管理能力提出了更高的要求。
当前IaaS层云化是大趋势,私有云实现了计算和存储资源的云化,分布式数据库实现了结构化数据的云化,云化后的资源可按需分配、弹性扩展。而非结构化数据存储的云化却缺乏很好的解决方案,尤其是随着音视频数据的加入,占用的存储空间越来越大,而这些数据的单位价值不高,如何降低单位存储成本也需重点考量。
为了解决银行、保险关键系统(如:柜台、信贷、承保、理赔等)的海量票据、证件、合同等文件数量庞大且不断累积导致的存储性能和扩展性瓶颈问题,金融行业非结构化数据存储的技术发展经历了四个阶段:
NAS存储阶段
在金融行业早期文件数量不多、存储容量不大的阶段, 金融客户普遍采用NAS外置存储设备来放置影像资料,但随着文件的海量增长,单台NAS可管理的文件数量和容量都出现了瓶颈。在实际项目中我们看到,用户的文件数量达到数千万时,访问时延可能达到秒级,这将直接影响到对最终用户的金融服务体验。而增加多台NAS外置存储设备,又会导致存储管理复杂性更高,同一应用系统数据存放在不同设备上导致数据割裂。在中大型企业,IT人员将花费大量时间完成IT运维变更审批流程,同时还要时刻提防这种频繁变更可能导致的IT运维风险,无法真正聚焦在为业务创造价值上。
ECM阶段
随着文件数量的增加,金融机构开始引入ECM(企业内容管理系统),ECM统一管理多个NAS外置存储设备,并可动态增加NAS,对外提供统一的名字空间,文件管理规模相对于单台NAS存储大大增加。同时,ECM系统还支持文件的属性存放和属性检索,可以实现跨业务系统的文件检索,满足文件管理的需要。
但由于ECM接口为非标准协议,需要专门进行应用开发,应用改造成本高,目前主要应用在金融的柜台、信贷和后督的影像系统。更重要的是,ECM的投资成本较高,百TB数据的存储成本高达数百万,不适合存储音视频等价值密度较低的数据,维护的成本也非常高。
分布式数据库阶段
随着大数据技术、MPP分布式数据库在金融行业的兴起,金融行业尝试利用这些技术解决非结构化数据存储问题,对于海量小文件性能和扩展性确实有较大突破,且分布式数据库可以实现文件元数据的统一存储和检索,满足对内容管理的需求。
但分布式数据库是结构化存储架构,替换文件存储存在很多局限性。首先,由于MPP分布式数据库的架构限制,很难实现传统存储的部分高级功能,如:纠删码功能(类似分布式RAID)、文件去重等,导致存储成本过高,不适用于音视频等低价值密度数据的存储。其次,受限于SQL接口,无法实现目录和子目录的权限管理、配额管理、目录快照回滚等传统NAS存储的基本功能,导致数据缺乏安全性机制及数据可靠性保障机制。此外,SQL、NoSQL作为文件存储,标准性差、接口使用复杂,不便于企业用户使用。该技术方案在部分金融机构尝试后,未能成为主流形态大范围推广应用。
对象存储阶段
反观互联网行业,近几年随着移动互联网和智能手机的蓬勃发展,微信、直播、短视频等新型应用带来的非结构化数据量已远远超过金融行业。由于数据量大、文件数多,因此需要寻找性价比高的存储方案,互联网在十年前就已经开始采用基于x86服务器的分布式架构来解决海量数据存储问题,出现过的技术包括谷歌的GoogleFS、亚马逊的S3、阿里的FastDFS等基于HTTP访问协议的文件存储方案,由于亚马逊的公有云影响力,AWS S3对象存储逐步成为互联网行业的事实标准,目前阿里、腾讯、华为的公有云都采用兼容S3协议的对象存储技术。
对象存储的技术特点是基于x86服务器+分布式存储软件技术构建统一存储池,利用服务器本地磁盘实现PB级甚至EB级的大规模存储集群,可扩展性强。软硬件解耦,可实现硬件的动态淘汰和更新,无需像NAS进行设备更新时要完成数据迁移。采用简化的文件操作接口,单一名字空间可管理的文件数量相比NAS大数百倍。基于HTTP协议的SDK访问,无需挂载操作系统,应用可直接访问,适合应用云化和容器化场景及手机APP程序访问场景。协议标准化,符合基础架构标准化需求且与公有云兼容,便于应用系统在公有云和私有云间无缝迁移。
除了具备对象存储的基本特点,杉岩分布式对象存储软件聚焦金融行业,帮助金融客户构建本地私有云存储资源池。同时,将互联网对象存储技术进行深度产品化,并推出了更多的特性。兼容FTP/文件接口,支持金融行业传统应用实现向对象存储的平滑迁移。支持文件元数据和元数据检索,代替ECM功能,满足企业内容管理需求。支持目录快照和快照策略、文件多版本和快速回滚,实现非结构化数据免备份,解决磁带库备份带宽不足和调取慢的问题。支持多数据中心容灾及数据中心AA模式,实现业务的就近读写访问。一套环境同时支持副本和纠删码(类似分布式RAID),兼顾金融核心业务系统的性能和音视频存储成本型应用需求。支持数据冷热自动分层,满足业务性能的同时,降低历史冷数据的存储成本。
综上所述,随着金融科技的不断引入,非结构化数据类型更多、数据量增长更快,存储需要对数据进行统一管理和利用,金融行业的IT管理者需要根据信息化需求选择更为合适和具有前瞻性的存储方案。未来,能够结合大数据分析、人工智能技术,实现对金融海量非结构化数据的价值挖掘,推动金融行业蓬勃发展。
本文作者介绍:邱尚高 (杉岩数据CTO & 创始人)
IT从业10年,曾任华为高级研发工程师、高级研发经理,2009年参与华为第一代云平台产品研发,2011年担任华为对象存储技术研究项目经理,主导新一代对象存储技术方向,2014年作为联合创始人创立杉岩数据。