環境センサーのデータ
Sensor.Community は、オープンな環境データを作成する寄稿者主導のグローバルセンサーネットワークです。データは、世界中のセンサーから収集されます。誰でもセンサーを購入し、好きな場所に設置することができます。データをダウンロードするためのAPIはGitHubにあり、データはDatabase Contents License (DbCL)の下で自由に利用可能です。
参考
データセットには200億件以上のレコードがあるため、リソースがそのボリュームに対応できる場合を除いて、以下のコマンドをコピーして貼り付ける際は注意が必要です。以下のコマンドは、Production インスタンスのClickHouse Cloudで実行されました。
- データはS3にあるので、
s3
テーブル関数を使用してファイルからテーブルを作成できます。また、データをその場でクエリすることもできます。ClickHouseに挿入する前に、いくつかの行を見てみましょう:
データはCSVファイルですが、区切り文字にはセミコロンが使用されています。行は以下のようになります:
- ClickHouseにデータを保存するために、以下の
MergeTree
テーブルを使用します:
- ClickHouse Cloudサービスには
default
という名前のクラスターがあります。クラスター内のノードからS3ファイルを並行して読み取るs3Cluster
テーブル関数を使用します。(クラスターがない場合は、s3
関数を使用してクラスター名を削除してください。)
このクエリはしばらく時間がかかります - 圧縮されていないデータは約1.67Tです:
ここに応答があります - 行数と処理速度を示しています。毎秒6M行以上の入力速度で処理されています!
sensors
テーブルに必要なストレージディスクの量を見てみましょう:
1.67Tは圧縮されて310 GiBに減少し、20.69億行があります:
- ClickHouseにデータが入ったので、分析してみましょう。センサーが展開されるにつれてデータの量が時間と共に増加することに注意してください:
SQLコンソールで結果を視覚化するためのチャートを作成できます:

- このクエリは、過度に暑く湿度の高い日の数をカウントします:
結果の視覚化は以下の通りです:
