跳到主要内容
跳到主要内容

来自 The OpenSky Network 2020 的众包空中交通数据

该数据集中的数据来源于完整的 OpenSky 数据集,并经过清理,以展示 COVID-19 大流行期间空中交通的发展。数据涵盖自 2019 年 1 月 1 日以来网络中超过 2500 名成员观察到的所有航班。在 COVID-19 大流行结束之前,将定期向数据集中添加更多数据。

来源: https://zenodo.org/records/5092942

Martin Strohmeier, Xavier Olive, Jannis Luebbe, Matthias Schaefer 和 Vincent Lenders
"来自 OpenSky Network 的众包空中交通数据 2019–2020"
《地球系统科学数据》 13(2), 2021
https://doi.org/10.5194/essd-13-357-2021

下载数据集

运行命令:

下载将在良好的互联网连接下大约需要 2 分钟。共有 30 个文件,总大小为 4.3 GB。

创建表

导入数据

并行上传数据到 ClickHouse:

  • 在这里,我们将文件列表 (ls -1 flightlist_*.csv.gz) 传递给 xargs 以进行并行处理。 xargs -P100 指定使用最多 100 个并行工作者,但由于我们只有 30 个文件,因此实际的工作者数量仅为 30。
  • 对于每个文件,xargs 将使用 bash -c 运行一个脚本。该脚本中的替换形式为 {},而 xargs 命令将用文件名替代它(我们已经请求的 xargs 使用 -I{})。
  • 该脚本将解压文件 (gzip -c -d "{}") 到标准输出 (使用 -c 参数),并将输出重定向到 clickhouse-client
  • 我们还要求解析 DateTime 字段,并使用扩展解析器 (--date_time_input_format best_effort) 以识别带时区偏移的 ISO-8601 格式。

最后,clickhouse-client 将执行数据插入。它将以 CSVWithNames 格式读取输入数据。

并行上传需要 24 秒。

如果您不喜欢并行上传,可以使用顺序版本:

验证数据

查询:

结果:

ClickHouse 中数据集的大小为 2.66 GiB,请检查。

查询:

结果:

执行一些查询

总共旅行的距离为 680 亿公里。

查询:

结果:

平均航程约为 1000 公里。

查询:

结果:

最繁忙的起点机场及其平均距离

查询:

结果:

来自三个主要莫斯科机场的航班数量,每周

查询:

结果:

在线播放平台

您可以使用交互资源 在线播放平台 测试对该数据集的其他查询。例如, 像这样。但请注意,您无法在这里创建临时表。