Перейти к основному содержимому
Перейти к основному содержимому

chDB

chDB — это быстрый встраиваемый in-process SQL OLAP‑движок на базе ClickHouse версии v25.8.2.1. Вы можете использовать его, когда вам нужны возможности ClickHouse в языке программирования без необходимости подключаться к отдельному серверу ClickHouse.

Ключевые возможности

  • Встраиваемый SQL OLAP-движок — на базе ClickHouse, нет необходимости устанавливать сервер ClickHouse
  • Поддержка множества форматов данных — ввод и вывод данных в форматах Parquet, CSV, JSON, Arrow, ORC и 70+ других форматов
  • Минимизация копирования данных — из C++ в Python с использованием python memoryview
  • Глубокая интеграция с экосистемой Python — нативная поддержка Pandas, Arrow, DB API 2.0, органично встраивается в существующие data science‑процессы
  • Отсутствие зависимостей — не требуется установка внешних баз данных
  • DataStore API — API, совместимый с Pandas, с SQL-оптимизацией, поддерживающий более 630 методов

DataStore: API, совместимый с pandas

НОВИНКА! DataStore предоставляет совместимый с pandas API, который сочетает привычный синтаксис pandas с производительностью ClickHouse.

Однострочная миграция

# Just change your import - your pandas code works unchanged
- import pandas as pd
+ from chdb import datastore as pd

df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()

Основные показатели производительности

ОперацияpandasDataStoreПрирост скорости
GroupBy count347ms17ms19.93x
Сложный пайплайн2,047ms380ms5.39x
Filter+Sort+Head1,537ms350ms4.40x

Результаты бенчмарка на 10M строк

Возможности DataStore

  • 630+ методов API — 209 методов pandas DataFrame, 185+ методов аксессоров
  • Отложенные вычисления (lazy evaluation) — операции компилируются в оптимизированный SQL
  • SQL pushdown — фильтры и агрегаты выполняются на стороне источника данных
  • Универсальные источники данных — чтение из файлов, S3, баз данных и озёр данных

Подробнее: Документация DataStore

Какие языки поддерживает chDB?

chDB поддерживает следующие языковые привязки:

С чего начать?

Для пользователей pandas

Начните с DataStore API, чтобы получить привычную работу в стиле pandas с производительностью ClickHouse:

Справочник по API DataStore

  • Factory Methods - создание из файлов, баз данных и облачных хранилищ
  • Query Building - построение запросов в стиле SQL
  • Pandas Compatibility - 209 совместимых методов
  • Accessors - .str, .dt, .arr, .json, .url, .ip, .geo
  • Configuration - движок, логирование, профилирование
  • Debugging - explain(), профилирование, логирование

Руководства по SQL API

Вводное видео

Посмотрите краткое введение в chDB и узнайте, как он переносит мощь ClickHouse в вашу среду Python:

Показатели производительности

chDB демонстрирует выдающуюся производительность в различных сценариях:

Результаты теста производительности DataFrame

О chDB

Лицензия

chDB доступна по лицензии Apache версии 2.0. Дополнительные сведения см. в файле LICENSE.