Как запрашивать Apache Arrow с помощью chDB
Apache Arrow — это стандартизированный колоночный формат памяти, который находит все более широкое применение в области данных.
В этом руководстве мы научимся запрашивать Apache Arrow, используя функцию таблицы Python
.
Настройка
Сначала создадим виртуальную среду:
Теперь мы установим chDB. Убедитесь, что у вас версия 2.0.2 или выше:
Затем мы установим PyArrow, pandas и ipython:
Мы будем использовать ipython
для выполнения команд в остальной части руководства, который вы можете запустить, выполнив:
Также вы можете использовать код в скрипте Python или в вашем любимом блокноте.
Создание таблицы Apache Arrow из файла
Сначала давайте загрузим один из файлов Parquet из набор данных Ookla, используя AWS CLI tool:
Если вы хотите загрузить больше файлов, используйте aws s3 ls
, чтобы получить список всех файлов, а затем обновите приведенную выше команду.
Затем мы импортируем модуль Parquet из пакета pyarrow
:
Затем мы можем прочитать файл Parquet в таблицу Apache Arrow:
Схема показана ниже:
Мы также можем получить количество строк и колонок, вызвав атрибут shape
:
Запросы к Apache Arrow
Теперь давайте запросим таблицу Arrow из chDB. Сначала давайте импортируем chDB:
Затем мы можем описать таблицу:
Мы также можем посчитать количество строк:
Теперь давайте сделаем что-то немного более интересное.
Следующий запрос исключает колонки quadkey
и tile.*
, а затем вычисляет средние и максимальные значения для всех оставшихся колонок: