如何查询 S3 存储桶中的数据 - ClickHouse Documentation

全球有大量数据存储在亚马逊 S3 存储桶中。在本指南中，我们将学习如何使用 chDB 查询这些数据。

环境准备

先创建一个虚拟环境：

python -m venv .venv
source .venv/bin/activate

现在我们来安装 chDB。请确保版本为 2.0.2 或更高：

pip install "chdb>=2.0.2"

接下来，我们来安装 IPython：

pip install ipython

我们将使用 ipython 运行本指南后续部分中的命令，你可以通过运行以下命令启动它：

ipython

你也可以在 Python 脚本或你常用的 notebook 中使用这段代码。

列出 S3 存储桶中的文件

我们先列出包含亚马逊评论的 S3 存储桶中的所有文件。为此，我们可以使用 s3 表函数，并传入文件路径或一组文件的通配符。

如果只传入 bucket 名称，就会抛出异常。

我们还会使用 One 输入格式，这样就不会解析文件；而是每个文件返回一行，我们可以通过 _file 虚拟列访问文件，并通过 _path 虚拟列访问路径。

import chdb

chdb.query("""
SELECT
    _file,
    _path
FROM s3('s3://datasets-documentation/amazon_reviews/*.parquet', One)
SETTINGS output_format_pretty_row_numbers=0
""", 'PrettyCompact')

┌─_file───────────────────────────────┬─_path─────────────────────────────────────────────────────────────────────┐
│ amazon_reviews_2010.snappy.parquet  │ datasets-documentation/amazon_reviews/amazon_reviews_2010.snappy.parquet  │
│ amazon_reviews_1990s.snappy.parquet │ datasets-documentation/amazon_reviews/amazon_reviews_1990s.snappy.parquet │
│ amazon_reviews_2013.snappy.parquet  │ datasets-documentation/amazon_reviews/amazon_reviews_2013.snappy.parquet  │
│ amazon_reviews_2015.snappy.parquet  │ datasets-documentation/amazon_reviews/amazon_reviews_2015.snappy.parquet  │
│ amazon_reviews_2014.snappy.parquet  │ datasets-documentation/amazon_reviews/amazon_reviews_2014.snappy.parquet  │
│ amazon_reviews_2012.snappy.parquet  │ datasets-documentation/amazon_reviews/amazon_reviews_2012.snappy.parquet  │
│ amazon_reviews_2000s.snappy.parquet │ datasets-documentation/amazon_reviews/amazon_reviews_2000s.snappy.parquet │
│ amazon_reviews_2011.snappy.parquet  │ datasets-documentation/amazon_reviews/amazon_reviews_2011.snappy.parquet  │
└─────────────────────────────────────┴───────────────────────────────────────────────────────────────────────────┘

该存储桶中只有 Parquet 文件。

查询 S3 存储桶中的文件

接下来，我们来看看如何查询这些文件。如果想统计这些文件中各个文件的行数，可以运行以下查询：

chdb.query("""
SELECT
    _file,
    count() AS count,
    formatReadableQuantity(count) AS readableCount    
FROM s3('s3://datasets-documentation/amazon_reviews/*.parquet')
GROUP BY ALL
SETTINGS output_format_pretty_row_numbers=0
""", 'PrettyCompact')

┌─_file───────────────────────────────┬────count─┬─readableCount───┐
│ amazon_reviews_2013.snappy.parquet  │ 28034255 │ 28.03 million   │
│ amazon_reviews_1990s.snappy.parquet │   639532 │ 639.53 thousand │
│ amazon_reviews_2011.snappy.parquet  │  6112495 │ 6.11 million    │
│ amazon_reviews_2015.snappy.parquet  │ 41905631 │ 41.91 million   │
│ amazon_reviews_2012.snappy.parquet  │ 11541011 │ 11.54 million   │
│ amazon_reviews_2000s.snappy.parquet │ 14728295 │ 14.73 million   │
│ amazon_reviews_2014.snappy.parquet  │ 44127569 │ 44.13 million   │
│ amazon_reviews_2010.snappy.parquet  │  3868472 │ 3.87 million    │
└─────────────────────────────────────┴──────────┴─────────────────┘

我们也可以传入 S3 存储桶的 HTTP URI，得到相同的结果：

chdb.query("""
SELECT
    _file,
    count() AS count,
    formatReadableQuantity(count) AS readableCount    
FROM s3('https://datasets-documentation.s3.eu-west-3.amazonaws.com/amazon_reviews/*.parquet')
GROUP BY ALL
SETTINGS output_format_pretty_row_numbers=0
""", 'PrettyCompact')

让我们使用 DESCRIBE 子句来看一下这些 Parquet 文件的 schema：

chdb.query("""
DESCRIBE s3('s3://datasets-documentation/amazon_reviews/*.parquet')
SETTINGS describe_compact_output=1
""", 'PrettyCompact')

    ┌─name──────────────┬─type─────────────┐
│ review_date       │ Nullable(UInt16) │
│ marketplace       │ Nullable(String) │
│ customer_id       │ Nullable(UInt64) │
│ review_id         │ Nullable(String) │
│ product_id        │ Nullable(String) │
│ product_parent    │ Nullable(UInt64) │
│ product_title     │ Nullable(String) │
│ product_category  │ Nullable(String) │
│ star_rating       │ Nullable(UInt8)  │
│ helpful_votes     │ Nullable(UInt32) │
│ total_votes       │ Nullable(UInt32) │
│ vine              │ Nullable(Bool)   │
│ verified_purchase │ Nullable(Bool)   │
│ review_headline   │ Nullable(String) │
│ review_body       │ Nullable(String) │
    └───────────────────┴──────────────────┘

现在我们来根据评论数量统计最热门的产品类别，并计算平均星级评分：

chdb.query("""
SELECT product_category, count() AS reviews, round(avg(star_rating), 2) as avg
FROM s3('s3://datasets-documentation/amazon_reviews/*.parquet')
GROUP BY ALL
LIMIT 10
""", 'PrettyCompact')

    ┌─product_category─┬──reviews─┬──avg─┐
│ Toys             │  4864056 │ 4.21 │
│ Apparel          │  5906085 │ 4.11 │
│ Luggage          │   348644 │ 4.22 │
│ Kitchen          │  4880297 │ 4.21 │
│ Books            │ 19530930 │ 4.34 │
│ Outdoors         │  2302327 │ 4.24 │
│ Video            │   380596 │ 4.19 │
│ Grocery          │  2402365 │ 4.31 │
│ Shoes            │  4366757 │ 4.24 │
│ Jewelry          │  1767667 │ 4.14 │
    └──────────────────┴──────────┴──────┘

查询私有 S3 存储桶中的文件

如果要查询私有 S3 存储桶中的文件，则需要传入访问密钥和密钥。我们可以将这些凭证传递给 s3 表函数：

chdb.query("""
SELECT product_category, count() AS reviews, round(avg(star_rating), 2) as avg
FROM s3('s3://datasets-documentation/amazon_reviews/*.parquet', 'access-key', 'secret')
GROUP BY ALL
LIMIT 10
""", 'PrettyCompact')

此查询无法执行，因为这是一个公共 bucket！

另一种方法是使用命名集合，但 chDB 目前尚不支持这种方式。

​环境准备

​列出 S3 存储桶中的文件

​查询 S3 存储桶中的文件

​查询私有 S3 存储桶中的文件

环境准备

列出 S3 存储桶中的文件

查询 S3 存储桶中的文件

查询私有 S3 存储桶中的文件