メインコンテンツまでスキップ
メインコンテンツまでスキップ

リモートClickHouseサーバーへのクエリ方法

このガイドでは、chDBからリモートClickHouseサーバーへのクエリ方法を学びます。

セットアップ

まず、仮想環境を作成しましょう:

次に、chDBをインストールします。 バージョン2.0.2以上が必要です:

次に、pandasとipythonをインストールします:

ipythonを使用して、残りのガイドでコマンドを実行します。起動するには次のコマンドを実行してください:

Pythonスクリプトやお気に入りのノートブックでコードを使用することもできます。

ClickPyの紹介

クエリを行うリモートClickHouseサーバーはClickPyです。 ClickPyは、PyPIパッケージのすべてのダウンロードを追跡し、UIを通じてパッケージの統計を探索できるようにします。 基盤となるデータベースは、playユーザーを使用してクエリ可能です。

ClickPyの詳細については、そのGitHubリポジトリを参照してください。

ClickPy ClickHouseサービスへのクエリ

chDBをインポートしましょう:

remoteSecure関数を使用してClickPyにクエリを投げます。 この関数には、ホスト名、テーブル名、およびユーザー名を最低限指定する必要があります。

次のクエリを書いて、openaiパッケージの日ごとのダウンロード数をPandasのDataFrameとして返します:

次に、scikit-learnのダウンロード数を返すために同じことをしましょう:

Pandas DataFrameのマージ

現在、2つのDataFrameがあるので、次のように日付(xカラム)を基にマージできます:

次に、Open AIのダウンロード数とscikit-learnのダウンロード数の比率を次のように計算できます:

Pandas DataFrameのクエリ

次に、最良および最悪の比率のある日付を見つけたいとしましょう。 chDBに戻り、これらの値を計算できます:

Pandas DataFramesへのクエリの詳細を学びたい場合は、Pandas DataFrames開発者ガイドをご覧ください。