chDB
chDB は、ClickHouse v25.8.2.1 を基盤とした、高速なインプロセス SQL OLAP エンジンです。 ClickHouse サーバーに接続することなく、プログラミング言語から ClickHouse の性能を活用したい場合に使用できます。
主な特徴
- インプロセス SQL OLAP エンジン - ClickHouse を基盤としており、ClickHouse サーバーを別途インストールする必要はありません
- 複数のデータ形式 - Parquet、CSV、JSON、Arrow、ORC および 70 以上の形式 での入出力をサポート
- データコピーの最小化 - python memoryview により、C++ から Python へのコピーを最小限に抑える
- 豊富な Python エコシステムとの統合 - Pandas、Arrow、DB API 2.0 をネイティブサポートし、既存のデータサイエンスワークフローにシームレスに適合
- 外部依存なし - 外部データベースをインストールする必要はありません
- DataStore API - SQL 最適化を備えた Pandas 互換 API で、630 以上のメソッドをサポート
DataStore: Pandas-Compatible API
新機能! DataStore は、おなじみの pandas 構文と ClickHouse のパフォーマンスを組み合わせた、pandas 互換の API を提供します。
1行でのマイグレーション
パフォーマンスハイライト
| 処理内容 | pandas | DataStore | 高速化率 |
|---|---|---|---|
| GroupBy count | 347ms | 17ms | 19.93x |
| 複雑なパイプライン | 2,047ms | 380ms | 5.39x |
| Filter+Sort+Head | 1,537ms | 350ms | 4.40x |
1000万行でのベンチマーク
DataStore の機能
- 630以上の API メソッド - 209 個の pandas DataFrame メソッド、185以上のアクセサーメソッド
- 遅延評価 - 操作は最適化された SQL にコンパイルされます
- SQL プッシュダウン - フィルタと集約がデータソース側で実行されます
- 多様なデータソース対応 - ファイル、S3、データベース、データレイクから読み取り可能
詳しくは DataStore ドキュメント を参照してください
chDB はどの言語をサポートしていますか?
chDB では、次の言語バインディングを利用できます。
どのように始めればよいですか?
- Go、Rust、NodeJS、Bun、または C と C++ を使用している場合は、対応する言語ページを参照してください。
- Python を使用している場合は、開発者向け入門ガイド または chDB オンデマンドコース を参照してください。
pandas ユーザー向け
なじみのある pandas の使い勝手で ClickHouse のパフォーマンスを利用できる DataStore API から始めましょう:
- DataStore クイックスタート - インストールとワンライナーでの移行
- pandas からの移行 - ステップバイステップの移行ガイド
- Pandas クックブック - 代表的なパターン
- 主な違い - pandas との重要な相違点
- パフォーマンスガイド - 最適化のヒント
DataStore API リファレンス
- Factory Methods - ファイル、データベース、クラウドストレージからの作成
- Query Building - SQL スタイルのクエリ構築
- Pandas Compatibility - 互換メソッド 209 個
- Accessors - .str, .dt, .arr, .json, .url, .ip, .geo
- Configuration - エンジン、ロギング、プロファイリング
- Debugging - explain()、プロファイリング、ロギング
SQL API ガイド
- Python API リファレンス - SQL API の完全なリファレンス
- JupySQL
- Pandas をクエリする
- Apache Arrow をクエリする
- S3 内のデータをクエリする
- Parquet ファイルをクエリする
- リモート ClickHouse をクエリする
- clickhouse-local データベースの利用
紹介動画
chDB の概要を紹介する短い動画を視聴し、ClickHouse のパワーを Python 環境でどのように活用できるか学びましょう。
パフォーマンスベンチマーク
chDB は、さまざまなシナリオにおいて卓越したパフォーマンスを発揮します。
- 組み込みエンジンのClickBench - SQL APIのパフォーマンス比較
- DataFrame ベンチマーク - DataFrame エンジンの比較
- DataStore と Pandas の比較 - 一般的な操作で pandas に比べて最大 20 倍高速

chDB について
- blog で chDB プロジェクト誕生の詳しい経緯を読む
- Blog で chDB とそのユースケースについて読む
- chDB オンデマンドコース を受講する
- ブラウザ上で codapi examples を使って chDB を試す
- その他のサンプルは (https://github.com/chdb-io/chdb/tree/main/examples) を参照
ライセンス
chDB は Apache License Version 2.0 に基づき提供されています。詳細については LICENSE を参照してください。