席卷全球的COVID-19病毒几乎改变了所有企业和组织的发展策略,面对疫情给经济和社会带来的前所未有的挑战,CIO们逐渐意识到,必须“以数据为中心”加速数字化转型,让组织变得更加敏捷,并且通过更加高效的数据全生命周期管理,加快应用迭代和商业决策。 事实上,在数字经济时代,企业的未来越来越依赖于数据所产生的价值。IDC在2021年《未来算力推动企业迈向数字化2.0》白皮书中写到:“在未来数字化基础设施中,企业将以数据驱动为特征,实现数据管理,数据即服务和数据分析,数据是数字经济的石油,是企业产出有效洞察的基础,可帮助实现流程和决策优化。”
数据已然成为与人、技术、流程同样重要的第四大核心竞争力,但这是不是就意味着说今天所有的企业数据都得到了使用或激活?答案显然是否定的。
希捷“数据新视界”调研发现,尽管数据具备价值,但这个价值却常常流失掉。在这份调研中,受访者估判,他们的企业仅采集了56%的可用数据,也就是说,几乎一半的数据流失掉了。而在这56%的捕获数据中,企业也只是利用了其中的57%,被获取的数据中,43%没有得到利用。这意味着只有32%的企业数据被激活,而高达68%的企业数据没有得到利用。
之所以存在如此之多的数据未被激活,是因为企业数据管理还面临着诸多挑战,如数据获取,数据存储,数据使用,数据安全,我们将这些关键问题归纳为现代企业数据管理的“七宗罪”。
一宗罪:系统资源耗费高
企业数字化转型的快速发展使得数据飞速增长,数据的来源和结构也变得越来越复杂多样。IDC的调查数据显示,2020年有64.2ZB的数据被创建或复制,据预测,在2020-2025年的预测期内,全球数据创建和复制的复合年增长率(CAGR)将达到23%。现在每小时创建的数据甚至要比20年前一整年创建的数据还多。
这些海量的数据遵循“二八定律”的分布原则,即关键业务的生产数据仅占20%,占据了高吞吐、低时延的主存储系统。与此同时,企业内为了满足开发测试、分析、备份与归档等次级业务的复制数据(数据副本或拷贝数据)等高达80%,通常使用二级存储单元来保存。
统计表明,一份生产数据往往带来8-10份的复制数据,而77%的企业在生产环境中拥有的数据库实例数量超过200个,这意味着大多数企业仅数据库拥有的副本数量就超过2000个。
大量泛滥的数据副本不仅需要额外占用不必要的存储空间,产生大量的数据孤岛,并且相同数据的冗余副本过多,还影响了系统性能,使得正常的数据访问或恢复数据的工作负载变得更加缓慢。
二宗罪:数据交付时间长
现有的拷贝方式需要数据的两次操作,一次是从生产环境导出,第二次是导入到非生产环境,时间成本较高。数据的导入导出都需要人为操作,不能自动完成,并且需要通过人为的传递才能完成数据从生产环境到测试环境的迁移,人力成本较高。
由于自动化程度低,主要依靠人工操作,同时数据的导出导入时间长,阻碍了数据的快速交付,通常是以天级为单位交付数据。如果是较大的数据量,甚至需要花费数周时间。
另外,对于一些中大型企业来说,一般在每年都会固定编制IT采购预算计划,而过多的数据副本对系统资源的需求往往又会超出计划之外,数据使用者需要花费更长的时间等待空闲的资源释放。
三宗罪:数据安全风险大
数据作为企业的核心资产,一旦丢失或者泄露,将给企业带来巨大的损失。IT Policy Compliance Group的报告表明,数据丢失的企业预计将导致其客户量及相关收入降低8%;对于上市企业而言,每股股价会下降8%;平均每丢失一个客户记录便会造成100美元的额外损失。IBM《2020年数据泄露成本报告》也指出,数据泄露事件给企业造成的平均成本为386万美元。调查显示,全球每年有近百万企业因数据丢失而倒闭。
另外,为了配合法规遵从,保证数据的完整性、安全性和可用性,我国也陆续出台了许多法律法规。例如,我国《网络安全法》要求:数据流动过程中应重视保护个人隐私、社保信息、资产信息、医疗信息等敏感信息的安全。特别是当数据应用于开发、测试、培训等环境时,安全风险较大,使用真实数据将面临严重数据泄露的风险。为满足这一要求,数据共享时需要使用数据脱敏技术。
传统方式下,数据移交到使用部门之后,管控权利完全在使用部门,甚至有些场景下,数据使用者利用个人便携式硬盘拷贝数据,只能用流程来控制数据的用后销毁,缺乏系统层面的全局管控,不仅容易造成数据丢失或泄露,而且无法以统一的数据基础架构实现整体的法规遵从,存在较高的安全风险。
四宗罪:权限管控失衡
“删库跑路”已经不是一个新鲜事,由“删库跑路”引发关键业务数据无法恢复,企业业务瘫痪,甚至直接导致企业倒闭,这背后折射的一个事实是:用户权限管控的失衡。
基于用户和权限分离的安全策略,最小粒度控制用户行为,杜绝类似“删库跑路”等高危动作的发生,变得极其必要。但这又引发了另外一个新问题:细颗粒度的权限管控意味着需要开通更多的管理账户来进行管控,导致存在更多的潜在风险节点。管理账户少,权限颗粒度又过于粗大。如何实现权限颗粒度和账号管理压力的平衡,值得深思。
五宗罪:环境稳定性和资源占用的矛盾
企业的开发测试环境由于频繁的版本变更,以及部署未经充分验证的代码,极其容易出故障的情况。虽然通过增加部署多套开发测试环境的数据副本,能够有效控制故障的影响范围,然而受制于有限的资源环境,企业需要在提高开发测试环境稳定性和降低资源环境成本上找到最佳平衡点。
另外,当前的开发测试环境缺少高效的版本管理和控制机制,不利于版本的敏捷迭代和保证测试的一致性。
六宗罪:备份数据缺少利用
备份一般是指利用第三方备份软件把数据从磁盘备份到磁带进行离线保存,或者磁盘备份到磁盘,也就是把磁盘作为备份数据的存放介质,以加快数据的备份和恢复速度。备份数据的格式与原格式不同,不能被数据处理系统直接访问。
备份通常只有在源数据被破坏或丢失时,才会开始使用,使用的频率并不高,而且备份数据必须先由备份软件恢复成可用数据,才能让数据处理系统访问。对于企业来说,一方面是随着备份数据的增长需要持续对备份系统进行投资,另一方面备份数据的价值却鲜有得到利用。
七宗罪:数据运营的缺失
根据IDC的定义,数据运营(DataOps)是将数据创建者与数据使用者进行连接的重要环节,以实现协作和加速创新,数据运营应该是每一个成功的数据管理策略的重要组成部分。但在现有的业务环境中,数据运营是数据管理缺失的环节。希捷“数据新视界”调研结果显示,在各个地区和行业中,平均只有10%的企业表示全面实施了数据运营,数据运营的机会有待发掘。
堪比“瑞士军刀”,一站式解决数据全生命周期管理问题
有没有一种解决方案,类似“瑞士军刀”,能够一站式解决数据全生命周期管理的“七宗罪”?
上讯信息基于数据虚拟化等核心技术,打造了国内首款商业化CDM产品——敏捷数据管理平台(ADM,Agile Data Management)。ADM以数据为中心,打通数据上中下游链条,实现了从数据获取,数据存储,数据构建,数据使用,数据归档到数据销毁的数据全生命周期管理,为用户提供一站式数据运营(DataOps)解决方案。
ADM目前拥有哪些核心功能?
第一,生产数据备份:ADM可以主动实现业务数据的备份,并对备份数据实现自动化的数据恢复校验。
第二,备份数据有效性验证:ADM可以对接用户的备份系统,实现备份数据的自动化获取和自动化恢复验证。
第三,敏感数据脱敏:提供给开发测试等非生产环境的数据在交付前的脱敏处理功能,实现了对数据中敏感信息的自动化发现和智能化脱敏,包括静态脱敏和动态脱敏。
第四,测试数据的极速交付:ADM通过一份数据副本,几分钟内即可快速创建出若干个虚拟数据副本,这些虚拟数据副本几乎不占用任何存储空间,在降低了存储成本的同时实现了测试环境数据的极速交付,并且支持测数据的版本管理。
第五,数据访问权限管理:针对每一个使用者创建虚拟账号,并对每个虚拟账号分配相应的权限,杜绝特权账号共享。
第六,数据库审计:提供针对数据库的访问和风险行为的防控、告警和追溯功能,保存日志记录,监控数据库压力,统计安全信息等。
第七,数据运营:基于自动化编排,无缝连接数据获取(数据创建)和数据使用,数据按需流动,进一步精简数据管理流程,软件开发和测试变得更加敏捷,确保产品交付和部署的快速和无缝改进。
“瑞士军刀”虽然提供了全面的各种用户所需功能,但对于一些用户来说,在特定的场景中往往只需要其中一种或几种功能。对于这一需求,ADM基于灵活的License控制,可按需交付任意单一或多个功能模块,如同“乐高积木”自由组合。甚至还支持与第三方独立产品功能进行组合,例如用户已有的第三方的脱敏产品与ADM组合,既满足了用户自动化脱敏平台的构建需求,加速数据交付,又保护了用户原有投资。
另外,ADM还支持在本地数据中心和混合多云之间灵活部署。混合多云架构让用户既可以享受私有云的安全可控优势,又可以利用公有云的经济和弹性,在通用环境中构建和部署应用或服务,而无需大规模的IT投入,实现快速增长和规模化。ADM支持无缝融合私有云和多公有云资源,并提供多云的互通和互操作,统一调用和管理资源,实现数据从本地到边缘以及多公有云的自由流动。
从2016年正式发布到如今,经过五年多的潜心打磨,ADM产品无论是功能的丰富性、产品的稳定性,还是对用户业务场景的理解,都取得了遥遥领先的优势。ADM产品在中国的CDM市场也开始迎来了属于它的高光时刻,不但相继斩获了金融和运营商两个主要行业的一大批头部用户,在应用上ADM产品也开始逐步替代了功能分散并独立的备份、容灾、数据管理、数据脱敏、数据库审计等产品,基于端到端的流程自动化和数据集中管控,真正帮助用户实现了数据价值的利用。