Как выполнять запросы к Apache Arrow с помощью chDB
Apache Arrow — это стандартизированный колоночный формат представления данных в памяти, который завоевал популярность в сообществе специалистов по данным.
В этом руководстве мы рассмотрим, как выполнять запросы к Apache Arrow с помощью табличной функции Python.
Настройка
Сначала создайте виртуальное окружение:
Теперь установим chDB. Убедитесь, что у вас установлена версия 2.0.2 или выше:
Теперь установим PyArrow, pandas и IPython:
Мы будем использовать ipython для выполнения команд в остальной части руководства, который можно запустить следующей командой:
Вы также можете использовать этот код в скрипте на Python или в вашем любимом ноутбуке (например, Jupyter).
Создание таблицы Apache Arrow из файла
Сначала загрузим один из файлов Parquet из набора данных Ookla с помощью утилиты AWS CLI:
Если вы хотите скачать дополнительные файлы, используйте aws s3 ls, чтобы получить список всех файлов, а затем обновите приведённую выше команду.
Далее мы импортируем модуль Parquet из пакета pyarrow:
Теперь мы можем считать файл Parquet в таблицу Apache Arrow:
Схема приведена ниже:
Мы можем получить число строк и столбцов, обратившись к атрибуту shape:
Выполнение запросов к Apache Arrow
Теперь давайте выполним запрос к таблице Apache Arrow из chDB. Сначала импортируем chDB:
Теперь можно вывести описание таблицы:
Также можно посчитать число строк:
Теперь сделаем что‑нибудь чуть более интересное.
Следующий запрос исключает столбцы quadkey и tile.*, а затем вычисляет средние и максимальные значения для всех остальных столбцов: