メインコンテンツまでスキップ
メインコンテンツまでスキップ

Apache ArrowをchDBでクエリする方法

Apache Arrow はデータコミュニティで人気のある標準化された列指向メモリ形式です。 このガイドでは、Python テーブル関数を使用して Apache Arrow をクエリする方法を学びます。

セットアップ

まず最初に、仮想環境を作成しましょう:

次に、chDB をインストールします。 バージョン 2.0.2 以上であることを確認してください:

次に PyArrow、pandas、および ipython をインストールします:

このガイドの残りのコマンドを実行するために ipython を使用します。次のコマンドで起動できます:

Python スクリプトやお好みのノートブックでもこのコードを使用できます。

ファイルから Apache Arrow テーブルを作成する

まず、Ooklaデータセット の Parquet ファイルの1つを、AWS CLIツール を使用してダウンロードします:

注記

もっと多くのファイルをダウンロードしたい場合は、aws s3 ls を使用してすべてのファイルのリストを取得し、上記のコマンドを更新してください。

次に、pyarrow パッケージから Parquet モジュールをインポートします:

次に、Parquet ファイルを Apache Arrow テーブルに読み込みます:

スキーマは以下のように表示されます:

shape 属性を呼び出すことで行数と列数を取得できます:

Apache Arrow をクエリする

さあ、chDB から Arrow テーブルをクエリしましょう。 まず、chDB をインポートします:

次に、テーブルを説明します:

行数をカウントすることもできます:

次に、少し面白いことをしてみましょう。 以下のクエリは quadkey および tile.* カラムを除外し、残りのすべてのカラムの平均値と最大値を計算します: