メインコンテンツまでスキップ
メインコンテンツまでスキップ

Crowdsourced air traffic data from The OpenSky Network 2020

The data in this dataset is derived and cleaned from the full OpenSky dataset to illustrate the development of air traffic during the COVID-19 pandemic. It spans all flights seen by the network's more than 2500 members since 1 January 2019. More data will be periodically included in the dataset until the end of the COVID-19 pandemic.

Source: https://zenodo.org/records/5092942

Martin Strohmeier, Xavier Olive, Jannis Luebbe, Matthias Schaefer, and Vincent Lenders
"Crowdsourced air traffic data from the OpenSky Network 2019–2020"
Earth System Science Data 13(2), 2021
https://doi.org/10.5194/essd-13-357-2021

ダウンロードデータセット

コマンドを実行します:

ダウンロードには良好なインターネット接続で約2分かかります。合計サイズ4.3 GBの30ファイルがあります。

テーブルを作成

データをインポート

ClickHouseにデータを並行してアップロードします:

  • ここでは、ファイルのリスト(ls -1 flightlist_*.csv.gz)を並行処理のためにxargsに渡します。 xargs -P100は最大100の並行ワーカーを使用することを指定しますが、ファイルは30だけなので、ワーカーの数は30だけになります。
  • 各ファイルについて、xargsbash -cでスクリプトを実行します。スクリプトでは{}の形の置換があり、xargsコマンドはファイル名をそれに置き換えます(-I{}xargsに要求しています)。
  • スクリプトはファイルをデコンプレッションして(gzip -c -d "{}")標準出力(-cパラメータ)に出力し、その出力をclickhouse-clientにリダイレクトします。
  • また、ISO-8601形式のタイムゾーンオフセットを認識するために、DateTimeフィールドを拡張パーサー(--date_time_input_format best_effort)で解析するように要求しました。

最後に、clickhouse-clientが挿入を行います。入力データはCSVWithNames形式で読み取ります。

並行アップロードには24秒かかります。

並行アップロードが好まれない場合は、こちらがシーケンシャルバリアントです:

データの検証

クエリ:

結果:

ClickHouseのデータセットサイズはわずか2.66 GiBです。確認してください。

クエリ:

結果:

いくつかのクエリを実行

総移動距離は680億キロメートルです。

クエリ:

結果:

平均フライト距離は約1000 kmです。

クエリ:

結果:

最も多忙な出発空港と平均距離

クエリ:

結果:

3つの主要なモスクワ空港からのフライト数、週別

クエリ:

結果:

オンラインプレイグラウンド

このデータセットに対して他のクエリをテストするために、インタラクティブリソースオンラインプレイグラウンドを使用できます。たとえば、このように。ただし、ここでは一時テーブルを作成することはできません。