メインコンテンツまでスキップ
メインコンテンツまでスキップ

Apache ArrowをchDBでクエリする方法

Apache Arrow は、データコミュニティで人気を集めている標準化された列指向メモリフォーマットです。 このガイドでは、Python テーブル関数を使用してApache Arrowをクエリする方法を学びます。

セットアップ

まず、仮想環境を作成しましょう:

次に、chDBをインストールします。 バージョン 2.0.2以上を使用していることを確認してください:

次に、PyArrow、pandas、およびipythonをインストールします:

これからのガイドの残りのコマンドを実行するためにipythonを使用します。以下のコマンドで起動できます:

Pythonスクリプトやお好きなノートブックでコードを使用することもできます。

ファイルからApache Arrowテーブルを作成する

まず、OoklaデータセットのParquetファイルの1つをダウンロードしましょう。 AWS CLIツールを使用します:

注記

他のファイルをダウンロードしたい場合は、aws s3 lsを使用してすべてのファイルのリストを取得し、上記のコマンドを更新してください。

次に、pyarrowパッケージからParquetモジュールをインポートします:

それから、ParquetファイルをApache Arrowテーブルに読み込みます:

スキーマは以下の通りです:

shape属性を呼び出して行数と列数を取得できます:

Apache Arrowをクエリする

次に、chDBからArrowテーブルをクエリしましょう。 まず、chDBをインポートします:

テーブルの説明を行います:

行の数をカウントすることもできます:

さあ、もう少し興味深いことをしてみましょう。 次のクエリでは、quadkeyおよびtile.*カラムを除外し、残りの全てのカラムに対して平均値と最大値を計算します: