以前我们谈论“存储未来”,看的是全球数据量增长,如何采用各种像闪存,磁盘和磁带等技术来满足人们的存储需求。而本文则是深入探究这些数据的管理以及如何令其更高效。
这其实是一个大主题,可能要至少两个或三个块儿来充分覆盖。我们先从存储寿命说起然后回答这个问题——我们真的需要存储一切吗?这与物联网(IoT)发展领域尤其息息相关。
而在不断膨胀的数字领域,数据寿命是我们所提到的一个关键点。IDC预测2020年全球数据量将会达到44 ZB,那么到时我们究竟要把这些数据存到哪儿?
有一个好消息就是IoT领域内产生了一大堆机器和传感器数据,可能并不需要永久保留。
Spectra Logic公司CTO Matt Starr挑战了人们所提出的这个问题——“数据的实际有效期是多久?”你需要永久保存一台波音777上来自传感器的所有数据吗?请记住,每个引擎每几毫秒有数以千计的传感器产生大量信号和记录。或许为了该架飞机的寿命的确要捕获所有的数据。又或许单程航线结束后某些参数被保留,其他则被汇总然后丢弃。总结起来都是能对每一条信息规定价值,反过来这又决定了你的存储位置,期限还有存储这些数据的成本。
“数据应当存储在对应的层或区域,以金钱计量进行适当检索,”Starr如是说。
他还表示,通常会有数据鲜少被赋予价值的情况,以至于所有数据都有高优先级——导致存储膨胀,成本飙升令人瞠目。近几年来,分层设置已经制定了基于数据现代性和访问率的基本管理制度。另外,数据保留过分简单化策略也导致若干年后所有这些数据将被删除的结果。这对一个试图符合监管部门要求的律师而言可能还好,但面对IoT和44ZB的“噩梦”实在是太过简单和有局限性。
如果一条数字信息永远只看一次,那么它的价值远不及其他数据。还有更多信息被捕捉,存储然后就被“打入冷宫”。
“超过90%的数据都没有被反复查看。”IDC分析师Vernon Turner如是说。
这点十分适用于IoT。传感器和设备大量生产数十亿数据点,因此优先考虑数据级至关重要,同时还要仔细规定哪些数据需要被传递到中央资料库进行分析,哪些数据要在网络边缘进行存储和分析,以及哪些数据什么时候应该被删除。
“不是什么都能集中起来,因此要形成核心与边缘存储的一个平衡,” StorageIO集团分析师Greg Schulz称。“而你最后想做的一件事将是四处传送多PB数据。反之,把应用程序靠近数据位置或者数据的缓存副本则是可行的。”
他认为有必要改变数据摄取地点,初步处理和存储(或本地暂时存储和丢弃或汇总和集中传输)。智能内容分发网络和其他技术将最终发形成一个混合的核心-边缘环境,能对数据摄取地点进行设置并保护(接近创建地点),然后数据流回到一些地方可能是云。
这样一来有些数据可能开始就未进入中央存储资料库长期保存。这可能涉及成百上千个数据点,比如,高速公路上的交通监控。但这些数据很可能在被删除之前需要在本地保留极短的周期。
而从IoT数据中提取的最高价值可能只是在创建不久就能完成分析。但如果你进行数据采集是为了优化飞机的飞行路线,实在不需要长期保留众多数据,可以按照几个数量级来减少存储负担。
“IoT是实时或近实时的,它在构建即时或当天决策时是最具价值的,” Cosentino表示,“你在数据存储区集成和分析数据越快,使用物联网成功的几率就越大。”