Как выполнять запросы к Apache Arrow с помощью chDB
Apache Arrow — это стандартизированный столбцовый формат памяти, который получил популярность в сообществе данных. В этом руководстве мы научимся выполнять запросы к Apache Arrow, используя табличную функцию Python
.
Настройка
Сначала создадим виртуальную среду:
Теперь установим chDB. Убедитесь, что у вас версия 2.0.2 или выше:
Теперь мы установим PyArrow, pandas и ipython:
Мы будем использовать ipython
для выполнения команд в остальной части руководства, который можно запустить, выполнив:
Вы также можете использовать код в Python-скрипте или в вашем любимом блокноте.
Создание таблицы Apache Arrow из файла
Сначала давайте загрузим один из файлов Parquet для набора данных Ookla, используя инструмент AWS CLI:
Если вы хотите загрузить больше файлов, используйте aws s3 ls
, чтобы получить список всех файлов, а затем обновите вышеуказанную команду.
Далее мы импортируем модуль Parquet из пакета pyarrow
:
Затем мы можем прочитать файл Parquet в таблицу Apache Arrow:
Схема показана ниже:
Мы также можем получить количество строк и колонок, вызвав атрибут shape
:
Запросы к Apache Arrow
Теперь давайте выполним запрос к таблице Arrow из chDB. Сначала импортируем chDB:
Затем мы можем описать таблицу:
Мы также можем посчитать количество строк:
Теперь давайте сделаем что-то немного более интересное. Следующий запрос исключает колонки quadkey
и tile.*
и затем вычисляет средние и максимальные значения для всех оставшихся колонок: