DataStore の実行モデル
DataStore の遅延評価モデルを理解することは、DataStore を効果的に利用し、パフォーマンスを最大化するための鍵となります。
遅延評価
DataStore は 遅延評価 (lazy evaluation) を採用しており、操作は即座には実行されず、記録されたうえで最適化された SQL クエリへとコンパイルされます。実行は、結果が実際に必要になったタイミングでのみ行われます。
例:Lazy 評価と Eager 評価の比較
遅延評価の利点
- クエリ最適化: 複数の処理を単一の最適化された SQL クエリとしてコンパイルできる
- フィルタープッシュダウン: フィルターはデータソース側で適用される
- カラムプルーニング: 必要なカラムだけを読み込む
- 決定の遅延: 実行エンジンを実行時に選択できる
- プランの確認: 実行前にクエリを確認・デバッグできる
Execution Triggers
実際の値が必要になったタイミングで、自動的に実行が開始されます。
自動トリガー
| Trigger | Example | Description |
|---|---|---|
print() / repr() | print(ds) | 結果を表示 |
len() | len(ds) | 行数を取得 |
.columns | ds.columns | カラム名を取得 |
.dtypes | ds.dtypes | カラム型を取得 |
.shape | ds.shape | 次元数を取得 |
.index | ds.index | 行インデックスを取得 |
.values | ds.values | NumPy 配列を取得 |
| Iteration | for row in ds | 行を繰り返し処理 |
to_df() | ds.to_df() | pandas に変換 |
to_pandas() | ds.to_pandas() | to_df のエイリアス |
to_dict() | ds.to_dict() | dict に変換 |
to_numpy() | ds.to_numpy() | 配列に変換 |
.equals() | ds.equals(other) | DataStore を比較 |
例:
遅延評価のまま実行される操作
| Operation | Returns | Description |
|---|---|---|
filter() | DataStore | WHERE 句を追加する |
select() | DataStore | カラム選択を追加する |
sort() | DataStore | ORDER BY を追加する |
groupby() | LazyGroupBy | GROUP BY を準備する |
join() | DataStore | JOIN を追加する |
ds['col'] | ColumnExpr | カラムを参照する |
ds[['col1', 'col2']] | DataStore | カラム選択を行う |
例:
3フェーズ実行
DataStore の操作は、3フェーズの実行モデルに従います。
フェーズ 1: SQL クエリ構築(遅延実行)
SQL で表現可能な操作が蓄積されていきます。
フェーズ 2: 実行ポイント
トリガーが発生すると、これまでに蓄えられていた SQL が実行されます。
フェーズ 3: DataFrame の操作(該当する場合)
実行後に pandas のみの処理を後続でチェーンする場合:
実行プランの表示
実行内容を確認するには、explain() を使用します:
出力例:
詳細を確認するには、verbose=True を指定します:
詳細については、Debugging: explain() を参照してください。
キャッシュ
DataStore は同じクエリを繰り返し実行しないよう、実行結果をキャッシュします。
キャッシュの仕組み
キャッシュの無効化
DataStore に対して変更を行う操作が実行された場合、キャッシュは無効化されます。
キャッシュの手動制御
SQL と Pandas 操作の併用
DataStore は、SQL と Pandas を組み合わせた操作を賢く処理します。
SQL互換の操作
次の操作は SQL に変換されます:
filter(),where()select()groupby(),agg()sort(),orderby()limit(),offset()join(),union()distinct()- カラム演算(数値演算、比較、文字列メソッド)
Pandas 専用の操作
これらの操作は実行をトリガーし、pandas で処理されます:
- カスタム関数を使った
apply() - 複雑な集計を行う
pivot_table() stack(),unstack()- 実行済みの DataFrame に対する操作
ハイブリッド パイプライン
実行エンジンの選択
DataStore では、さまざまなエンジンを使用して処理を実行できます。
自動モード(デフォルト)
chDB エンジンを強制的に使用する
pandas エンジンの強制使用
詳細については、Configuration: Execution Engine を参照してください。
パフォーマンスへの影響
良い例: 早期にフィルタリングする
悪い例: フィルタを遅い段階で行う
良い: 早期にカラムを絞り込む
良いパターン: SQL に仕事をさせる
ベストプラクティスの概要
- 実行前に処理をチェーンする - 完全なクエリを組み立ててから、一度だけ実行をトリガーする
- 早期にフィルタを適用する - データ量はソース側で削減する
- 必要なカラムだけを選択する - カラムのプルーニングはパフォーマンスを向上させる
explain()を使って実行内容を把握する - 実行前にデバッグする- 集約処理は SQL に任せる - ClickHouse はこの用途に最適化されている
- 実行が発生するトリガーを把握しておく - 意図しない早期実行を避ける
- キャッシュを賢く使う - キャッシュがいつ無効化されるかを理解する