COVID-19 Open-Data
COVID-19 Open-Data 旨在构建最大的 Covid-19 流行病学数据库,并提供一套强大的广泛协变量。它包括来自公开渠道、已授权的数据,涉及人口统计、经济、流行病学、地理、健康、住院、流动性、政府响应、天气等多个方面。
详细信息可以在 GitHub 这里 查阅。
将这些数据插入 ClickHouse 非常简单...
备注
以下命令是在 ClickHouse Cloud 的 Production 实例上执行的。您也可以在本地安装的环境中轻松运行它们。
- 让我们看看数据的样子:
CSV 文件有 10 列:
- 现在让我们查看一些行:
注意 url
函数可以轻松从 CSV 文件中读取数据:
- 现在我们在了解数据的样子后,将创建一个表:
- 以下命令将整个数据集插入到
covid19
表中:
- 进行得很快 - 让我们看看插入了多少行:
- 让我们看看记录了多少 Covid-19 的总病例:
- 您会注意到数据中很多日期的值为 0 - 要么是周末,要么是没有每天报告数字的日子。我们可以使用窗口函数来平滑新病例的每日平均值:
- 这个查询确定每个地点的最新值。我们不能使用
max(date)
,因为并非所有国家每天都有报告,所以我们使用ROW_NUMBER
获取最后一行:
- 我们可以使用
lagInFrame
来确定每天新病例的LAG
。在这个查询中,我们按US_DC
位置过滤:
响应看起来像:
- 这个查询计算每天新病例的变化百分比,并在结果集中包含一个简单的
increase
或decrease
列:
结果看起来像
备注
正如在 GitHub repo 中提到的,该数据集自 2022 年 9 月 15 日起不再更新。