来自 The OpenSky Network 2020 的众包空中交通数据
该数据集中的数据来源于完整的 OpenSky 数据集,并经过清理,以展示 COVID-19 大流行期间空中交通的发展。数据涵盖自 2019 年 1 月 1 日以来网络中超过 2500 名成员观察到的所有航班。在 COVID-19 大流行结束之前,将定期向数据集中添加更多数据。
来源: https://zenodo.org/records/5092942
Martin Strohmeier, Xavier Olive, Jannis Luebbe, Matthias Schaefer 和 Vincent Lenders
"来自 OpenSky Network 的众包空中交通数据 2019–2020"
《地球系统科学数据》 13(2), 2021
https://doi.org/10.5194/essd-13-357-2021
下载数据集
运行命令:
下载将在良好的互联网连接下大约需要 2 分钟。共有 30 个文件,总大小为 4.3 GB。
创建表
导入数据
并行上传数据到 ClickHouse:
- 在这里,我们将文件列表 (
ls -1 flightlist_*.csv.gz
) 传递给xargs
以进行并行处理。xargs -P100
指定使用最多 100 个并行工作者,但由于我们只有 30 个文件,因此实际的工作者数量仅为 30。 - 对于每个文件,
xargs
将使用bash -c
运行一个脚本。该脚本中的替换形式为{}
,而xargs
命令将用文件名替代它(我们已经请求的xargs
使用-I{}
)。 - 该脚本将解压文件 (
gzip -c -d "{}"
) 到标准输出 (使用-c
参数),并将输出重定向到clickhouse-client
。 - 我们还要求解析 DateTime 字段,并使用扩展解析器 (--date_time_input_format best_effort) 以识别带时区偏移的 ISO-8601 格式。
最后,clickhouse-client
将执行数据插入。它将以 CSVWithNames 格式读取输入数据。
并行上传需要 24 秒。
如果您不喜欢并行上传,可以使用顺序版本:
验证数据
查询:
结果:
ClickHouse 中数据集的大小为 2.66 GiB,请检查。
查询:
结果:
执行一些查询
总共旅行的距离为 680 亿公里。
查询:
结果:
平均航程约为 1000 公里。
查询:
结果:
最繁忙的起点机场及其平均距离
查询:
结果:
来自三个主要莫斯科机场的航班数量,每周
查询:
结果: