メインコンテンツまでスキップ
メインコンテンツまでスキップ

COVID-19 Open-Data

COVID-19 Open-Dataは、Covid-19の疫学データベースを最大化することを目指しており、広範な共変量の強力なセットを提供します。人口統計、経済、疫学、地理、健康、入院、移動、政府の対応、天候などに関連するオープンで公共にソースされたライセンスデータが含まれています。

詳細はGitHubの こちら にあります。

このデータをClickHouseに挿入するのは簡単です...

注記

以下のコマンドは、ClickHouse CloudProductionインスタンスで実行されました。ローカルインストールでも簡単に実行できます。

  1. データがどのような形をしているか見てみましょう:

CSVファイルには10列があります:

  1. では、いくつかの行を表示してみましょう:

url 関数はCSVファイルからデータを簡単に読み取ります:

  1. データがどのようなものか分かったので、テーブルを作成しましょう:
  1. 次のコマンドは、全データセットをcovid19テーブルに挿入します:
  1. かなり早く進みます - 挿入された行数を見てみましょう:
  1. Covid-19の合計件数を確認しましょう:
  1. データには日付に対して多くの0があることに気づくでしょう - 週末や数値が毎日報告されなかった日です。ウィンドウ関数を使用して、新しいケースの日次平均を平滑化します:
  1. このクエリは各場所の最新の値を取得します。すべての国が毎日報告しているわけではないので、max(date)は使用できませんので、ROW_NUMBERを用いて最後の行を取得します:
  1. lagInFrameを使用して毎日の新規症例のLAGを決定します。このクエリではUS_DCのロケーションでフィルターします:

レスポンスは次のようになります:

  1. このクエリは毎日の新規ケースの変化のパーセンテージを計算し、結果セットに簡単なincreaseまたはdecreaseの列を含めます:

結果は次のようになります:

注記

GitHubリポジトリ に記載されているように、このデータセットは2022年9月15日以降は更新されていません。