Перейти к основному содержанию
Перейти к основному содержанию

Как выполнять запросы к Apache Arrow с помощью chDB

Apache Arrow — это стандартизированный колоночный формат представления данных в памяти, который завоевал популярность в сообществе специалистов по данным. В этом руководстве мы рассмотрим, как выполнять запросы к Apache Arrow с помощью табличной функции Python.

Настройка

Сначала создайте виртуальное окружение:

python -m venv .venv
source .venv/bin/activate

Теперь установим chDB. Убедитесь, что у вас установлена версия 2.0.2 или выше:

pip install "chdb>=2.0.2"

Теперь установим PyArrow, pandas и IPython:

pip install pyarrow pandas ipython

Мы будем использовать ipython для выполнения команд в остальной части руководства, который можно запустить следующей командой:

ipython

Вы также можете использовать этот код в скрипте на Python или в вашем любимом ноутбуке (например, Jupyter).

Создание таблицы Apache Arrow из файла

Сначала загрузим один из файлов Parquet из набора данных Ookla с помощью утилиты AWS CLI:

aws s3 cp \
  --no-sign \
  s3://ookla-open-data/parquet/performance/type=mobile/year=2023/quarter=2/2023-04-01_performance_mobile_tiles.parquet .
Примечание

Если вы хотите скачать дополнительные файлы, используйте aws s3 ls, чтобы получить список всех файлов, а затем обновите приведённую выше команду.

Далее мы импортируем модуль Parquet из пакета pyarrow:

import pyarrow.parquet as pq

Теперь мы можем считать файл Parquet в таблицу Apache Arrow:

arrow_table = pq.read_table("./2023-04-01_performance_mobile_tiles.parquet")

Схема приведена ниже:

arrow_table.schema
quadkey: string
tile: string
tile_x: double
tile_y: double
avg_d_kbps: int64
avg_u_kbps: int64
avg_lat_ms: int64
avg_lat_down_ms: int32
avg_lat_up_ms: int32
tests: int64
devices: int64

Мы можем получить число строк и столбцов, обратившись к атрибуту shape:

arrow_table.shape
(3864546, 11)

Выполнение запросов к Apache Arrow

Теперь давайте выполним запрос к таблице Apache Arrow из chDB. Сначала импортируем chDB:

import chdb

Теперь можно вывести описание таблицы:

chdb.query("""
DESCRIBE Python(arrow_table)
SETTINGS describe_compact_output=1
""", "DataFrame")
               name     type
0           quadkey   String
1              tile   String
2            tile_x  Float64
3            tile_y  Float64
4        avg_d_kbps    Int64
5        avg_u_kbps    Int64
6        avg_lat_ms    Int64
7   avg_lat_down_ms    Int32
8     avg_lat_up_ms    Int32
9             tests    Int64
10          devices    Int64

Также можно посчитать число строк:

chdb.query("SELECT count() FROM Python(arrow_table)", "DataFrame")
   count()
0  3864546

Теперь сделаем что‑нибудь чуть более интересное. Следующий запрос исключает столбцы quadkey и tile.*, а затем вычисляет средние и максимальные значения для всех остальных столбцов:

chdb.query("""
WITH numericColumns AS (
  SELECT * EXCEPT ('tile.*') EXCEPT(quadkey)
  FROM Python(arrow_table)
)
SELECT * APPLY(max), * APPLY(avg) APPLY(x -> round(x, 2))
FROM numericColumns
""", "Vertical")
Row 1:
──────
max(avg_d_kbps):                4155282
max(avg_u_kbps):                1036628
max(avg_lat_ms):                2911
max(avg_lat_down_ms):           2146959360
max(avg_lat_up_ms):             2146959360
max(tests):                     111266
max(devices):                   1226
round(avg(avg_d_kbps), 2):      84393.52
round(avg(avg_u_kbps), 2):      15540.4
round(avg(avg_lat_ms), 2):      41.25
round(avg(avg_lat_down_ms), 2): 554355225.76
round(avg(avg_lat_up_ms), 2):   552843178.3
round(avg(tests), 2):           6.31
round(avg(devices), 2):         2.88