COVID-19 Open-Data
COVID-19 Open-Dataは、Covid-19の疫学データベースを最大化することを目指しており、広範な共変量の強力なセットを提供します。人口統計、経済、疫学、地理、健康、入院、移動、政府の対応、天候などに関連するオープンで公共にソースされたライセンスデータが含まれています。
詳細はGitHubの こちら にあります。
このデータをClickHouseに挿入するのは簡単です...
注記
以下のコマンドは、ClickHouse Cloud のProductionインスタンスで実行されました。ローカルインストールでも簡単に実行できます。
- データがどのような形をしているか見てみましょう:
CSVファイルには10列があります:
- では、いくつかの行を表示してみましょう:
url
関数はCSVファイルからデータを簡単に読み取ります:
- データがどのようなものか分かったので、テーブルを作成しましょう:
- 次のコマンドは、全データセットを
covid19
テーブルに挿入します:
- かなり早く進みます - 挿入された行数を見てみましょう:
- Covid-19の合計件数を確認しましょう:
- データには日付に対して多くの0があることに気づくでしょう - 週末や数値が毎日報告されなかった日です。ウィンドウ関数を使用して、新しいケースの日次平均を平滑化します:
- このクエリは各場所の最新の値を取得します。すべての国が毎日報告しているわけではないので、
max(date)
は使用できませんので、ROW_NUMBER
を用いて最後の行を取得します:
lagInFrame
を使用して毎日の新規症例のLAG
を決定します。このクエリではUS_DC
のロケーションでフィルターします:
レスポンスは次のようになります:
- このクエリは毎日の新規ケースの変化のパーセンテージを計算し、結果セットに簡単な
increase
またはdecrease
の列を含めます:
結果は次のようになります:
注記
GitHubリポジトリ に記載されているように、このデータセットは2022年9月15日以降は更新されていません。