跳到主要内容
跳到主要内容

COVID-19 Open-Data

COVID-19 Open-Data 旨在构建最大的 Covid-19 流行病学数据库,并提供一套强大的广泛协变量。它包括来自公开渠道、已授权的数据,涉及人口统计、经济、流行病学、地理、健康、住院、流动性、政府响应、天气等多个方面。

详细信息可以在 GitHub 这里 查阅。

将这些数据插入 ClickHouse 非常简单...

备注

以下命令是在 ClickHouse CloudProduction 实例上执行的。您也可以在本地安装的环境中轻松运行它们。

  1. 让我们看看数据的样子:

CSV 文件有 10 列:

  1. 现在让我们查看一些行:

注意 url 函数可以轻松从 CSV 文件中读取数据:

  1. 现在我们在了解数据的样子后,将创建一个表:
  1. 以下命令将整个数据集插入到 covid19 表中:
  1. 进行得很快 - 让我们看看插入了多少行:
  1. 让我们看看记录了多少 Covid-19 的总病例:
  1. 您会注意到数据中很多日期的值为 0 - 要么是周末,要么是没有每天报告数字的日子。我们可以使用窗口函数来平滑新病例的每日平均值:
  1. 这个查询确定每个地点的最新值。我们不能使用 max(date),因为并非所有国家每天都有报告,所以我们使用 ROW_NUMBER 获取最后一行:
  1. 我们可以使用 lagInFrame 来确定每天新病例的 LAG。在这个查询中,我们按 US_DC 位置过滤:

响应看起来像:

  1. 这个查询计算每天新病例的变化百分比,并在结果集中包含一个简单的 increasedecrease 列:

结果看起来像

备注

正如在 GitHub repo 中提到的,该数据集自 2022 年 9 月 15 日起不再更新。