メインコンテンツまでスキップ
メインコンテンツまでスキップ

リモートClickHouseサーバーのクエリ方法

In this guide, we're going to learn how to query a remote ClickHouse server from chDB.

Setup

まず、仮想環境を作成します。

次に、chDBをインストールします。 バージョン2.0.2以上であることを確認してください:

次に、pandasとipythonをインストールします:

このガイドの残りの部分でコマンドを実行するために、ipythonを使用します。これを起動するには、次のコマンドを実行します:

コードをPythonスクリプトやお気に入りのノートブックで使用することもできます。

An intro to ClickPy

私たちがクエリを実行するリモートClickHouseサーバーはClickPyです。 ClickPyはPyPIパッケージのすべてのダウンロードを追跡し、UIを介してパッケージの統計を探索できます。 基礎データベースはplayユーザーを使用してクエリが可能です。

ClickPyの詳細については、GitHubリポジトリを参照してください。

Querying the ClickPy ClickHouse service

まずchDBをインポートします:

remoteSecure関数を使ってClickPyにクエリを実行します。 この関数は、ホスト名、テーブル名、ユーザー名を最低限必要とします。

次のクエリを記述して、openaiパッケージの1日あたりのダウンロード数をPandas DataFrameとして返します:

次に、scikit-learnのダウンロード数を返すために同じことを行います:

Merging Pandas DataFrames

現在、2つのDataFrameができたので、日付(x列)に基づいてマージできます:

次に、Open AIのダウンロード数とscikit-learnのダウンロード数の比率を計算します:

Querying Pandas DataFrames

次に、最高と最低の比率の日付を見つけたいとしましょう。 chDBに戻ってそれらの値を計算できます:

Pandas DataFramesのクエリについてさらに学ぶには、Pandas DataFrames開発者ガイドを参照してください。