メインコンテンツへスキップ
メインコンテンツへスキップ

chDB

chDB は、ClickHouse v25.8.2.1 を基盤とした、高速なインプロセス SQL OLAP エンジンです。 ClickHouse サーバーに接続することなく、プログラミング言語から ClickHouse の性能を活用したい場合に使用できます。

主な特徴

  • インプロセス SQL OLAP エンジン - ClickHouse を基盤としており、ClickHouse サーバーを別途インストールする必要はありません
  • 複数のデータ形式 - Parquet、CSV、JSON、Arrow、ORC および 70 以上の形式 での入出力をサポート
  • データコピーの最小化 - python memoryview により、C++ から Python へのコピーを最小限に抑える
  • 豊富な Python エコシステムとの統合 - Pandas、Arrow、DB API 2.0 をネイティブサポートし、既存のデータサイエンスワークフローにシームレスに適合
  • 外部依存なし - 外部データベースをインストールする必要はありません
  • DataStore API - SQL 最適化を備えた Pandas 互換 API で、630 以上のメソッドをサポート

DataStore: Pandas-Compatible API

新機能! DataStore は、おなじみの pandas 構文と ClickHouse のパフォーマンスを組み合わせた、pandas 互換の API を提供します。

1行でのマイグレーション

# Just change your import - your pandas code works unchanged
- import pandas as pd
+ from chdb import datastore as pd

df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()

パフォーマンスハイライト

処理内容pandasDataStore高速化率
GroupBy count347ms17ms19.93x
複雑なパイプライン2,047ms380ms5.39x
Filter+Sort+Head1,537ms350ms4.40x

1000万行でのベンチマーク

DataStore の機能

  • 630以上の API メソッド - 209 個の pandas DataFrame メソッド、185以上のアクセサーメソッド
  • 遅延評価 - 操作は最適化された SQL にコンパイルされます
  • SQL プッシュダウン - フィルタと集約がデータソース側で実行されます
  • 多様なデータソース対応 - ファイル、S3、データベース、データレイクから読み取り可能

詳しくは DataStore ドキュメント を参照してください

chDB はどの言語をサポートしていますか?

chDB では、次の言語バインディングを利用できます。

どのように始めればよいですか?

pandas ユーザー向け

なじみのある pandas の使い勝手で ClickHouse のパフォーマンスを利用できる DataStore API から始めましょう:

DataStore API リファレンス

SQL API ガイド

紹介動画

chDB の概要を紹介する短い動画を視聴し、ClickHouse のパワーを Python 環境でどのように活用できるか学びましょう。

パフォーマンスベンチマーク

chDB は、さまざまなシナリオにおいて卓越したパフォーマンスを発揮します。

DataFrame のベンチマーク結果

chDB について

ライセンス

chDB は Apache License Version 2.0 に基づき提供されています。詳細については LICENSE を参照してください。