Amazon S3又双叒更新:专为表格存储和元数据管理打造了新功能-存储在线-存储专业媒体

2024年re:Invent大会上，新任CEO Matt Garman发布了Amazon S3存储的两项更新，一个是新的针对表格数据的存储桶类别Amazon S3 Tables，另一个是为元数据管理提供便利的Amazon S3 Metadata。

Amazon S3 Tables：显著提升Apache Iceberg的性能和扩展性

Apache Parquet 已成为云端表格数据存储的事实标准，特别是在数据湖场景中表现优异。Matt Garman介绍说，表格数据已是 Amazon S3 中增长最快的数据类型之一。

据Matt介绍，许多客户存储了数百万甚至数十亿个 Parquet 文件。为了高效查询这些文件，现如今多数人使用 Apache Iceberg 来提供所需的文件结构支持。

Apache Iceberg 是一种开源高性能表格格式，支持跨文件格式（如 Parquet）的灵活操作，用户可通过 SQL 在庞大的数据湖中查询数据，同时利用工具如 Spark 和 Flink 安全分析数据，无需担心工作负载冲突。

然而，Iceberg 在性能、扩展性和安全性管理方面的复杂性，特别是在大规模场景下，给许多组织带来了挑战，因此常需专门团队负责表维护、数据压缩和访问控制等任务。

为此，亚马逊云科技推出了新的Amazon S3类型——Amazon S3 Tables，希望用它来自动化处理这些麻烦。

Amazon S3 Tables是专为Iceberg 设计的新型存储桶，能显著提升性能和扩展性。将 Parquet 文件存储到 Amazon S3 Tables 中，查询性能可提升 3 倍，每秒事务处理能力提高 10 倍，整个过程无需任何额外配置。

Amazon S3 Tables自动管理表维护任务，包括压缩、快照管理和无效文件清理，帮助优化存储空间和成本。随着数据湖的扩展，性能和成本优化也会持续改进。Amazon S3 Tables 为数据湖提供更高效、更经济、更大规模的支持。

Amazon S3 Metadata：全新元数据服务，简化数据查找与管理

随着数据量不断增加，快速找到所需数据就变得越来越困难，尤其是当数据达到PB或 EB级时。

Matt Garman提到，元数据在帮助组织和理解存储信息方面至关重要，比如手机上的照片，通过位置信息和日期等元数据，可以轻松定位到特定图片。

在Amazon S3 中，用户传统上需要手动构建元数据系统，创建事件处理管道，将元数据与存储对象关联，并确保数据更新时，元数据也要跟着同步。然而，这种方式复杂且耗时，特别是在大规模数据场景下，管理难度非常吓人。

为了解决这个问题，亚马逊云科技推出了元数据管理服务Amazon S3 Metadata，它提供了一种更简单高效的解决方案，无需繁重的手动操作，即可轻松实现元数据管理和查询。

Amazon S3 Metadata能让用户快速、轻松地发现和查询S3数据的元信息。它通过将所有对象的元数据自动存储在Iceberg表中，并在几分钟内更新，确保数据始终最新。而且，用户可以使用常用分析工具快速了解数据详情，轻松找到所需对象。

这一功能大幅简化了元数据管理流程，改变了用户与S3数据交互的方式，特别是在数据分析和超大规模AI模型应用中具有显著优势。这是Amazon S3的又一重大创新，为数据管理和分析开启了全新可能。

Amazon S3的创新，一直没断过

Amazon S3对象存储是亚马逊云科技的第一个云服务，从根本上改变了存储的方式，为用户提供了简单、持久、高度可扩展且安全的云存储。让对象存储成为整个互联网技术发展的数据基石。

据Matt Garman介绍，如今，Amazon S3不仅存储了超过400万亿个对象，更成为企业数据湖、AI训练数据和高性能分析的优先选择。通过持续的技术创新，S3不仅解决了规模化挑战，还带来了性能提升和成本优化。

针对访问频次和成本需求不同，Amazon S3有多种类存储方案。为了降低管理负担，S3用智能分层技术自动根据访问模式调整存储层级，帮助客户在无需额外操作的情况下节省大量成本。截至目前，这一功能已为客户节省超过40亿美元。

Amazon S3已成为全球超过一百万个数据湖的支柱，为PB级乃至EB级别数据的管理提供支持。尤其是在金融建模、实时广告和AI训练等大型分析场景中，S3的创新功能如强一致性支持和低延迟选项显著提高了分析效率。

Amazon S3又双叒更新:专为表格存储和元数据管理打造了新功能