地球这么大,怎么做CT ?
地下数千米,如何用数据看透地球?面对油气勘探复杂数据,有怎样的新存储之道? 四位专家面对面共话“用数据给地球做CT,解锁新的油气藏”
宋家雨,Dostor存储在线总编辑
方 粮,中国计算机学会信息存储专业委员会委员
赖能和,中石油东方地球物理勘探有限公司处理中心总工程师
孙 斌,浪潮存储产品线副总经理
宋家雨:在油气勘探领域,数据是如何产生、采集和处理的?数据量又有怎样的变化?目前又有哪些新兴应用?
中石油集团东方地球物理勘探有限公司处理中心总工程师 赖能和
赖能和:
人工智能在油气勘探领域已经开始陆续应用,比如勘探过程中的城市路线勘探,会根据历史数据比对设计出最佳路线;在处理方面,曾经需要30人处理2个月的数据,现在通过神经网络和人工智能训练算法去处理,速度、精准度都大大提高。
油气勘探大致分成三个阶段,第一阶段是通过不同的采集手段将野外数据采集回来;第二阶段是数据处理,数据中心通过超能计算机对野外数据进行处理,得到数据体;第三个阶段是利用数据体,解释地质构造,找出油气藏。
油气勘探过程会产生大量数据,每年大概会增加2-3倍,就原始采集数据来看,从2012年的50TB,激增至2019年的2500TB左右的数据量,这仅仅是原始采集的数据量。目前我们使用的存储系统,存储空间要在原始采集数据的15倍左右,因为原始采集数据要经过三十多个基本流程,每个流程要处理中间结果,要保存的数据量巨大,因此这几年我们对存储系统的要求越来越高,投资也越来越大。
人工智能在油气勘探领域已经开始陆续应用,比如勘探过程中的城市路线勘探,会根据历史数据比对设计出最佳路线;在处理方面,曾经需要30人处理2个月的数据,现在通过神经网络和人工智能训练算法去处理,速度、精准度都大大提高;还有解释、质量控制阶段,都已经开始投入人工智能的研究。
宋家雨:油气勘探行业海量数据的变化和人工智能的应用,带来了怎样的挑战?
中国计算机学会信息存储专业委员会委员 方粮
方 粮:勘探应用网格密度每增加1倍,数据量就增加3-4倍,网格画的越细,分析的就越准确,所以油气勘探对计算能力、存储能力的要求是无止境的,这是一个巨大的挑战。
油气勘探应用网格系统密度不断增加,以前的网格密度是50m×100m,现在可以做到6m×12m左右,网格每增加1倍,数据量就增加3-4倍,网格画的越细,采集精细度就越高,分析的就越准确,所以油气勘探对计算能力、存储能力的要求是无止境的。
另一方面,石油勘探领域相比其他行业有优势,有大量的数据和经验积累,可以更加快速适应人工智能技术,运用AI训练、推理等方式实现勘探作业更快、更精、更准确,提高勘探成功率。
对存储系统来讲,能够存取勘探海量数据的同时,对数据处理能力也有很高的要求,如果存储的容量和扩展性跟不上,或者存储性能和吞吐能力跟不上的话,勘探作业中极有可能因为存储的超负荷而崩溃,造成数据丢失、作业中断,这个影响是巨大的。
宋家雨:面对油气勘探领域这种复杂的存储需求,浪潮存储有哪些应对之道?
浪潮存储产品线副总经理 孙斌
孙 斌:针对油气勘探行业海量数据存储需求和数据处理性能要求,需要大容量、高性能的存储系统来满足,我们通常会建议客户选择分布式存储系统。过去几年,我们对大量应用场景进行研究分析,当面向客户的实际应用时,有针对性的通过测试、调优开展深度优化。
针对油气勘探行业海量数据存储需求和数据处理性能要求,需要大容量、高性能的存储系统来满足,我们通常会建议客户选择分布式存储系统。首先分布式存储最典型的特点就是容量够大,可随数据量增加而实现横向扩展,支持到EB级别的存储容量;其次,存储性能也可随着容量的扩展而线性扩展,分布式存储的每一个节点都可以承接负载,满足高并发读写请求。
浪潮存储一直在探索承接AI等新型应用的新存储之道,AI的工作负载分为五个环节,首先是数据的采集环节,此环节要求高吞吐量的写入,而且是并行的大量顺序写入;第二环节是数据的标识,是大量小IO;第三个环节是训练,是随机的小IO,对性能要求比较高;第四个环节是推理,大部分的推理对延迟要求很高;最后一个是归档,这个环节要求高吞吐量的读和写。IO的模式不同,对存储的要求不同。
过去几年,我们对大量应用场景进行研究分析,当面向客户的实际应用时,有针对性的通过测试、调优开展深度优化,最大程度满足客户应用在容量、性能、架构及管理上的需求,承接客户应用的同时,也通过AI手段使存储系统变得更智能。
Dostor存储在线总编辑 宋家雨
宋家雨:人类对自然的探索永不会停歇,就像油气勘探领域,随着我们不断深入的勘探,需要越来越多的存储容量和计算能力做支撑,来探索更多地球的奥秘。