Перейти к основному содержимому
Перейти к основному содержимому

Как запрашивать Apache Arrow с помощью chDB

Apache Arrow — это стандартизированный колоночный формат памяти, который находит все более широкое применение в области данных. В этом руководстве мы научимся запрашивать Apache Arrow, используя функцию таблицы Python.

Настройка

Сначала создадим виртуальную среду:

Теперь мы установим chDB. Убедитесь, что у вас версия 2.0.2 или выше:

Затем мы установим PyArrow, pandas и ipython:

Мы будем использовать ipython для выполнения команд в остальной части руководства, который вы можете запустить, выполнив:

Также вы можете использовать код в скрипте Python или в вашем любимом блокноте.

Создание таблицы Apache Arrow из файла

Сначала давайте загрузим один из файлов Parquet из набор данных Ookla, используя AWS CLI tool:

примечание

Если вы хотите загрузить больше файлов, используйте aws s3 ls, чтобы получить список всех файлов, а затем обновите приведенную выше команду.

Затем мы импортируем модуль Parquet из пакета pyarrow:

Затем мы можем прочитать файл Parquet в таблицу Apache Arrow:

Схема показана ниже:

Мы также можем получить количество строк и колонок, вызвав атрибут shape:

Запросы к Apache Arrow

Теперь давайте запросим таблицу Arrow из chDB. Сначала давайте импортируем chDB:

Затем мы можем описать таблицу:

Мы также можем посчитать количество строк:

Теперь давайте сделаем что-то немного более интересное. Следующий запрос исключает колонки quadkey и tile.*, а затем вычисляет средние и максимальные значения для всех оставшихся колонок: