The OpenSky Network 2020のクラウドソーシングによる航空交通データ
このデータセットのデータはCOVID-19パンデミック中の航空交通の発展を示すために、完全なOpenSkyデータセットから派生し、クリーンアップされたものです。2019年1月1日以降、ネットワークの2500人以上のメンバーによって観測されたすべてのフライトを含んでいます。COVID-19パンデミックの終了まで、定期的にデータがデータセットに追加されます。
ソース: https://zenodo.org/records/5092942
Martin Strohmeier, Xavier Olive, Jannis Luebbe, Matthias Schaefer, and Vincent Lenders
"クラウドソーシングによる航空交通データ from the OpenSky Network 2019–2020"
Earth System Science Data 13(2), 2021
https://doi.org/10.5194/essd-13-357-2021
データセットのダウンロード
次のコマンドを実行します:
ダウンロードには良好なインターネット接続で約2分かかります。合計サイズは4.3GBの30ファイルがあります。
テーブルの作成
データのインポート
データをClickHouseに並行してアップロードします:
- ここではファイルのリスト(
ls -1 flightlist_*.csv.gz
)をxargs
に渡して並行処理します。
xargs -P100
は最大100の並行ワーカーを使用することを指定しますが、ファイルは30のみなので、ワーカーの数は30になります。 - 各ファイルについて、
xargs
はbash -c
でスクリプトを実行します。スクリプトは{}
の形式で置換があり、xargs
コマンドがファイル名をそこに置き換えます(-I{}
でxargs
にリクエストしました)。 - スクリプトはファイルを解凍します(
gzip -c -d "{}"
)して標準出力(-c
パラメータ)に出力し、出力はclickhouse-client
にリダイレクトされます。 - また、DateTimeフィールドを拡張パーサーで解析するよう要求しています(--date_time_input_format best_effortを使用)で、ISO-8601形式をタイムゾーンオフセットとして認識できます。
最後に、clickhouse-client
が挿入を行います。入力データはCSVWithNames形式で読み込みます。
並行アップロードには24秒かかります。
並行アップロードが好みでない場合、こちらが順次のバリアントです:
データの検証
クエリ:
結果:
ClickHouse内のデータセットのサイズはわずか2.66 GiBです。確認してください。
クエリ:
結果:
クエリを実行する
移動した総距離は680億キロメートルです。
クエリ:
結果:
平均飛行距離は約1000 kmです。
クエリ:
結果:
最も混雑した発着空港と平均距離
クエリ:
結果:
モスクワの三つの主要空港からのフライト数、週ごと
クエリ:
結果:
オンラインプレイグラウンド
このデータセットに対して他のクエリを試すことができるインタラクティブリソース オンラインプレイグラウンド を利用できます。たとえば、このように使用できます。ただし、一時テーブルを作成することはできないことに注意してください。