从不平凡的2020年走来,数字经济的重要性已不言而喻,2021年是十四五规划的开局之年,数字经济在5G、区块链、AI、云原生等技术的推动下迎来进一步发展,并对存储等数据基础设施带来更多的挑战和变化。如何实现数据创新,对于金融,对于数字化转型至关重要。
5月13日,由百易传媒(DOIT)举办的2021(第四届)软件定义存储峰会在上海举行。全球存储界的翘楚——英特尔、浪潮、西部数据、新华三、戴尔科技集团与银行、航空、制造等典型行业用户及教学科研等领域的专家学者近千名与会代表聚集黄浦江畔,与数千名线上代表一起,重新审视软件定义存储技术、应用趋势,共同探讨软件定义存储发展大势。
在圆桌对话环节,浪潮金融存储产品总监张刃,平安银行分布式数据库技术负责人李中原,诺致科技创始人、原上海华瑞银行科技部总经理及互联网业务总部总监邝谧、英方软件华东一区销售总监李光等嘉宾相聚一起,共话“数据金融如何引领业务创新”。
本次对话由百易传媒(DOIT)总编宋家雨主持。
宋家雨:今天对话主题放到了数据金融的场景下,在金融这个特定的领域里,数据如何促进金融业务创新的。
先请诺致科技创始人、原上海华瑞银行科技部总经理及互联网业务总部总监邝谧谈一谈,从数据驱动金融创新角度,目前关注的方向是什么。
邝谧:各位好,我很荣幸参加到这个峰会。我之前在IBM负责大型机,那是典型的集中架构,到做大集中,到后来直连存储和SaaS,一直到现在分布式。
大家可能注意到,金融都在讲场景金融,场景金融就是要跟金融产品结合,跟外部沟通,涉及到大量的数据交换,而且现在大家已经尝到甜头了。
最近一段时间我关注到有一个领域是非常热的,就是隐私计算。很容易理解,要把数据共享,就涉及到如何保证数据安全隐私。过去前几年比较粗放,没有那么严谨,现在已经认识到,并且看到了趋势。
我前面也看到几位嘉宾演讲,包括和区块链的结合,这方面会以什么形式结束,目前来说看不到,但是大家都做了不少探索,所以我很期待。
宋家雨:这种海量很多是非结构化数据,它还需要大量存储容量,数据的积累一定会给业务带来新的变化。
接下来把问题给平安银行分布式数据库技术负责人李中原。平安银行我们熟悉的是保险,您现在做分布式数据库。如果把视角放得大一点,放在数据金融创新角度,分布式数据库在里面所承担的角色是什么?仅仅是为了像以前讲去IOE,还是为了数据创新做数据方面的准备?
李中原:这个问题多是方面的。从数据结合今天话题,可从这几个方面来理解。
作为我的专业,我可能每天都会跟数据打交道,另一方面我也和它们很陌生。为什么陌生呢?因为它们随时可能跟我翻脸,这其实是所有做这个行业人的通病。
为了避免它们“翻脸”,我们要提供很多技术的保障,最简单的做法就是冗余。从传统的方案来讲,做SaaS,担心Saas也不够,我现在个人研究的方向就是分布式数据库,这个可能是在底层硬件之上,从另外一个层次,即从数据和应用层面做冗余,最终目的就是保证数据的一致性管理和可用性。
在基础需求之上,我们对应用,对数据以及对存储有更多的需求,在座的各位都可能会有这样的感触。简单举几个例子。
在存储的和系统稳定性之间,有平衡的,怎么来说呢?我的使用率如果要求过高,那系统出现故障的情形以及引发变更的风险次数也会相应的增加,怎么实现这样的平衡?从银行现在角度来讲,可能宁愿牺牲一定的使用率也要保证它的稳定性。当然,使用率并不是没有要求;使用率稍稍的提升,也许对整个组织来讲,它在资金方面的节省可能是以千万或者以亿为计量的。
当今,互联网发展非常快,业务指出对存储需求并不那么高,随着业务的增长数据量存储需求越来越高。从数据库层面,换一个存储,整个过程可能对于核心的系统会持续很长时间才能完成这样的方案。
另外,有的系统负载不一定是很均匀的,有可能日常的时候使用很低,有的使用又非常高,批量的系统可能每天就一个小时的IO非常集中,需要很高性能,过了这个时间以后只需要很普通的存储就可以了。如何用高性能的存储,在它高性能的时间,提供相应的服务,总结来看,一个是能够随需的分配存储,另一个外是可以按需分配性能,这对我们来说是很好的解决方案。
宋家雨:对金融行业来讲,可靠性、稳定性是第一位的存储需求,所以一定要在企业应用方面做可靠性、稳定性的保障。提到随着业务发展的弹性问题,存储要保证效率的同时,要随着业务发展,提供弹性,这个弹性是不是跟云,以及目前的预算有类似。无论是在数据的可靠性、稳定性,还是在数据的组织准备,有很多需要做的工作和需要从架构设计上考虑很多问题。
如何满足特定的场景下对存储数据处理,以及数据的共享,请浪潮金融存储产品总监张刃分享一下,金融行业的数据共享,存储应该做哪些针对性的工作?
张刃:今天开场提到了一个词——“后疫情”时代,这次疫情给所有业务带来很大变化。
以前我们办业务要去银行柜台,现在在手机终端就办了。曾经我有一次和银行客户聊天,他说数据像大象一样,前台软件可能是酒店的前台,大象那么大一定不可能放在酒店,要放在仓库里。我来到前台问,看一下大象,前台肯定是给一个条,这个条可能是一个地址,这个条可能有有很多需求,如果是手机、电脑业务,一个固定的终端办理。如果是网页,会训练三分钟过期、七分钟过期的常用密码方式,结合越紧密业务落地越好,更好能够协调。
这种情况下,我们发现客户的变化导致文件积累,文件样本量增加从原来几万个,变成现在我们看到是几亿、十几亿文件级别。
平时电脑文件夹可以明确感觉,如果文件夹几万、十几万、上百万的文件,打开速度都一样的,那几十亿的文件,如何查阅处理,还要跟大平台进行共享,还要提供其他的业务,这个时候如何能够各自职责,首先面临的是如何从原来数据在文件系统上但对象系统。首先就需要做定制化,让它和对象存储直接共享,这样和前台的软件之间搭配好,等于减少了大量拷贝或者迁移的时间和资源。
刚才提到大数据平台,提到各种资源的互相利用,我们尽量能够让平台支持多合一,在同一个资源池里调度,这个过程会很复杂,自然带来管理的复杂,所以我们要分三个方向打造一个管理的解决方案:
一是能够协调各种各样的资源,在数据来了以后进行管理,这个数据就是银行的资产。二是数据资产要有一个展现。当这块儿业务已经不再是热的,不再是生产的情况下,如何卸载相应的资源,或者应用到其他地方用,把资源让存储快速布局再加入到群体当中。最后一个核心的问题,就是把所有业务调试好了,最后大量并发以后,延时导致后续业务受到冲击是不希望的,那么是用全闪还是傲腾?以上是我的观点,数据的金融数字化改变,引领了存储技术比较,存储技术要和业务结合,才能适应这个场景。
宋家雨:大象的比喻特别恰当,后台里面有我们大量的数据,可能大象也不是一头,有各种各样的类型,怎么可以根据前端业务需求应用到所需要的数据提,这些都在业务创新中需要考虑的问题。
英方的专长是数据复制,刚才提到金融应用场景里快速做数据响应,具体什么样的复制技术可派到什么样的用场呢?请英方软件华东一区销售总监李光做个分享。
李光:英方在数据海量增长过程中,价值点在数据的备份,尤其金融行业重要的行业。随着时代的发展,海量数据各种数据频繁访问,英方软件推出了一个产品,叫英方。英方维度是数据容灾,自身定义是基础数据的复制。英方软件从动态定义的非结构化存储提供基于硬件以及应用以下基础数据块以上的平台,帮助很多业务场景尤其是金融行业。
这几年应用得比较多的行业,像券商。在数据需要快速、准确、安全等不同的业务场景和不同数据平台之间,快速响应,甚至达到毫秒级,我们的软件基于底层的块存储,针对刚才张刃总说的金融可信数据海量十亿级、百亿级碎文件或者非结构化的动态文件,可以快速在不同存储坏和数据平台之间搭建一个平台,帮助数据能够在毫秒级响应到每一个业务场景。
我们把数据安全发展做一个比喻,跟国家经济发展是一样的。比如很多年前高铁不存在,从北京到上海需要20几个小时,随着业务需要,现在的动车、高铁,把车身变成几节,但是可以在三到四小时从北京到上海打通一条高铁上很多人选择A到B产生的数据价值是怎样的。
数据产生了非常大的量,这个量有没有价值,有多快把核心数据产生A到B的转换,英方从分布式存储和数据的迁移,包括在异构云平台之间,私有化平台之间,能够把A云到B云之间实现切换,这是我们公司做的。形象的比喻是做一个管道,海量数据之间挑出有用、有价值需要做转换的数据,快速毫秒级,数据频繁交互达到业务快速响应,最终是为业务服务。
这个服务价值体现在时间、数据、安全这些细节上,所以英方厂家这五年的重点工作,就是A数据快速搬到B,用B可以给客户带来业务连续性,业务连续性是否安全,数据是否可用,我们的主要工作是帮助大家打通通道。
宋家雨:今天我们看待数据创新的时候,就是数据组成和管理,数据的复制也不仅仅针对传统意义上的容灾、备份,我们从数据管理讲了具体技术手段,也讲到了海量数据,像大象这样的东西。数据在金融创新中心中,诺致科技可以给我们带来什么分享?
邝谧:其实大家思考的问题就是从原来的消费比较成熟的集中式架构,到现在分布式架构,尤其和外部的互联网连接以后。
银行做数据治理的时候,传统的数据治理体系接口相对很完整,但是对于新产生的数据,它的数据治理,原来的数据质量、管控这些东西带来大量的需求,大量银行对这部分是不擅长的,传统服务商能力也不足,比较擅长的就是互联网厂商,但是他们对银行环境也不熟悉,这造成了这里面大家的困惑和探索。到目前为止,也没有看到特别成熟把这两块儿整合起来的,中间一段时间银行设了CDO这样的职位,但是并没有看到特别成功的案例在业界可以广泛成熟的模式出来,目前没有。
这方面可以跟大家探讨的备份,原来非常细的点,现在变成大家迫切的事情了,传统银行上来都是做全量备份的,大概就是这样。
宋家雨:因为讲了结构化、非结构化数据的管理,您这边擅长的应该分布式数据库,它能解决类似这样的问题吗?
张刃:其分布式数据库最大的好处是化整为零,把很大的数据体量分成很小的一块儿去做。在复制数字技术,我个人有比较深刻的感受。我们在服务银行用户时遇到的比较大的数据库,中型已经在几十TB级别,再大一点上百TB,要想对它做完整的备份,需要投入的成本,包括时间消耗以及可能带来对业务的影响,都是蛮大的。所以我们也在探索把一些重要的往分布式方向走,这对于我们从事相应工作的时候,它相应的难度就会减少了很多。
与此同时,也带来另外一个方面的挑战,即单个体量是变小了,但数量相应的增加,这个对存储厂商或者技术提供方带来另外一个挑战,即如何能够同时管理这么多的分布式系统,这也是现在所面临比较重要的问题。
随着分布式上的系统越来越多,这个问题可能会越来越明显。据我了解,国内银行大多在往分布式方向走,而且也有在加快的趋势。在不久将来,有比较好的解决方案。
宋家雨:分布式系统,刚才李总用了一个词叫化整为零,通过这个解决了很多以前在数据物理方面所面临的难题。这方面,我们讲创新实际上基于数据的创新,那首先把海量数据保存下来,保护好,在这个基础之上再跟以前的应用创新。在应用创新这方面牵涉到很多数据的组织和管理,快速的给使用数据的人应用,找到它所需要的数据。这方面在互联网行业还是有很多的经验可以借鉴的,为什么有大量数据库类型呢?整个是围绕数据管理、数据组织的需要,和后端存储的配合,和软件定义存储这样比较有特性的存储性结合是至关重要的。
关于数据创新是特别大的话题,不是一句话、两句话讲清楚的。期待以后机会继续探讨。谢谢各位嘉宾!