2024年re:Invent大会上,新任CEO Matt Garman发布了Amazon S3存储的两项更新,一个是新的针对表格数据的存储桶类别Amazon S3 Tables,另一个是为元数据管理提供便利的Amazon S3 Metadata。
Amazon S3 Tables:显著提升Apache Iceberg的性能和扩展性
Apache Parquet 已成为云端表格数据存储的事实标准,特别是在数据湖场景中表现优异。Matt Garman介绍说,表格数据已是 Amazon S3 中增长最快的数据类型之一。
据Matt介绍,许多客户存储了数百万甚至数十亿个 Parquet 文件。为了高效查询这些文件,现如今多数人使用 Apache Iceberg 来提供所需的文件结构支持。
Apache Iceberg 是一种开源高性能表格格式,支持跨文件格式(如 Parquet)的灵活操作,用户可通过 SQL 在庞大的数据湖中查询数据,同时利用工具如 Spark 和 Flink 安全分析数据,无需担心工作负载冲突。
然而,Iceberg 在性能、扩展性和安全性管理方面的复杂性,特别是在大规模场景下,给许多组织带来了挑战,因此常需专门团队负责表维护、数据压缩和访问控制等任务。
为此,亚马逊云科技推出了新的Amazon S3类型——Amazon S3 Tables,希望用它来自动化处理这些麻烦。
Amazon S3 Tables是专为Iceberg 设计的新型存储桶,能显著提升性能和扩展性。将 Parquet 文件存储到 Amazon S3 Tables 中,查询性能可提升 3 倍,每秒事务处理能力提高 10 倍,整个过程无需任何额外配置。
Amazon S3 Tables自动管理表维护任务,包括压缩、快照管理和无效文件清理,帮助优化存储空间和成本。随着数据湖的扩展,性能和成本优化也会持续改进。Amazon S3 Tables 为数据湖提供更高效、更经济、更大规模的支持。
Amazon S3 Metadata:全新元数据服务,简化数据查找与管理
随着数据量不断增加,快速找到所需数据就变得越来越困难,尤其是当数据达到PB或 EB级时。
Matt Garman提到,元数据在帮助组织和理解存储信息方面至关重要,比如手机上的照片,通过位置信息和日期等元数据,可以轻松定位到特定图片。
在Amazon S3 中,用户传统上需要手动构建元数据系统,创建事件处理管道,将元数据与存储对象关联,并确保数据更新时,元数据也要跟着同步。然而,这种方式复杂且耗时,特别是在大规模数据场景下,管理难度非常吓人。
为了解决这个问题,亚马逊云科技推出了元数据管理服务Amazon S3 Metadata,它提供了一种更简单高效的解决方案,无需繁重的手动操作,即可轻松实现元数据管理和查询。
Amazon S3 Metadata能让用户快速、轻松地发现和查询S3数据的元信息。它通过将所有对象的元数据自动存储在Iceberg表中,并在几分钟内更新,确保数据始终最新。而且,用户可以使用常用分析工具快速了解数据详情,轻松找到所需对象。
这一功能大幅简化了元数据管理流程,改变了用户与S3数据交互的方式,特别是在数据分析和超大规模AI模型应用中具有显著优势。这是Amazon S3的又一重大创新,为数据管理和分析开启了全新可能。
Amazon S3的创新,一直没断过
Amazon S3对象存储是亚马逊云科技的第一个云服务,从根本上改变了存储的方式,为用户提供了简单、持久、高度可扩展且安全的云存储。让对象存储成为整个互联网技术发展的数据基石。
据Matt Garman介绍,如今,Amazon S3不仅存储了超过400万亿个对象,更成为企业数据湖、AI训练数据和高性能分析的优先选择。通过持续的技术创新,S3不仅解决了规模化挑战,还带来了性能提升和成本优化。
针对访问频次和成本需求不同,Amazon S3有多种类存储方案。为了降低管理负担,S3用智能分层技术自动根据访问模式调整存储层级,帮助客户在无需额外操作的情况下节省大量成本。截至目前,这一功能已为客户节省超过40亿美元。
Amazon S3已成为全球超过一百万个数据湖的支柱,为PB级乃至EB级别数据的管理提供支持。尤其是在金融建模、实时广告和AI训练等大型分析场景中,S3的创新功能如强一致性支持和低延迟选项显著提高了分析效率。