Apache ArrowをchDBでクエリする方法
Apache Arrow はデータコミュニティで人気のある標準化された列指向メモリ形式です。
このガイドでは、Python
テーブル関数を使用して Apache Arrow をクエリする方法を学びます。
セットアップ
まず最初に、仮想環境を作成しましょう:
次に、chDB をインストールします。 バージョン 2.0.2 以上であることを確認してください:
次に PyArrow、pandas、および ipython をインストールします:
このガイドの残りのコマンドを実行するために ipython
を使用します。次のコマンドで起動できます:
Python スクリプトやお好みのノートブックでもこのコードを使用できます。
ファイルから Apache Arrow テーブルを作成する
まず、Ooklaデータセット の Parquet ファイルの1つを、AWS CLIツール を使用してダウンロードします:
注記
もっと多くのファイルをダウンロードしたい場合は、aws s3 ls
を使用してすべてのファイルのリストを取得し、上記のコマンドを更新してください。
次に、pyarrow
パッケージから Parquet モジュールをインポートします:
次に、Parquet ファイルを Apache Arrow テーブルに読み込みます:
スキーマは以下のように表示されます:
shape
属性を呼び出すことで行数と列数を取得できます:
Apache Arrow をクエリする
さあ、chDB から Arrow テーブルをクエリしましょう。 まず、chDB をインポートします:
次に、テーブルを説明します:
行数をカウントすることもできます:
次に、少し面白いことをしてみましょう。
以下のクエリは quadkey
および tile.*
カラムを除外し、残りのすべてのカラムの平均値と最大値を計算します: