台湾の歴史的天候データセット
このデータセットには、過去128年間の歴史的な気象観測測定が含まれています。各行は、特定の日付・時刻と気象台の測定結果を示しています。
このデータセットの起源はこちらで入手でき、気象台番号のリストはこちらで確認できます。
気象データセットのソースには、中央気象局によって設置された気象観測所(駅コードはC0、C1、及び4で始まる)や、農業委員会に属する農業気象観測所(上記以外の駅コード)が含まれます。
- StationId
- MeasuredDate、観測時間
- StnPres、気象台の気圧
- SeaPres、海面気圧
- Td、露点温度
- RH、相対湿度
- 利用可能な他の要素
データのダウンロード
- ClickHouse用の前処理されたバージョンで、クリーンアップ、再構造化、およびエンリッチされています。このデータセットは1896年から2023年までのデータをカバーしています。
- 元の生データをダウンロードして、ClickHouseに必要なフォーマットに変換します。独自のカラムを追加したいユーザーは、独自のアプローチを探求または完成させることを検討するかもしれません。
前処理されたデータ
データセットは、行ごとの測定から気象台IDと測定日時毎の行に再構造化されています。すなわち、
クエリを実行するのが容易で、結果のテーブルはスパースな要素が少なく、一部の要素は測定できないためnullになります。
このデータセットは、次のGoogle Cloud Storageの場所で入手可能です。データセットをローカルファイルシステムにダウンロードして(ClickHouseクライアントを使用して挿入)、またはClickHouseに直接挿入することができます(URLからの挿入を参照)。
ダウンロードするには:
元の生データ
元の生データをダウンロードして、変換および変換するための手順は以下の通りです。
ダウンロード
元の生データをダウンロードするには:
台湾の気象観測所を取得する
テーブルスキーマを作成する
ClickHouseでMergeTreeテーブルを作成します(ClickHouseクライアントから)。
ClickHouseへの挿入
ローカルファイルからの挿入
データは次のようにローカルファイルから挿入できます(ClickHouseクライアントから):
ここで/path/to
は、ディスク上のローカルファイルへの特定のユーザーパスを表します。
データをClickHouseに挿入した後のサンプル応答出力は以下の通りです:
URLからの挿入
これを迅速に行う方法については、大規模データのロードチューニングに関するブログ記事をご覧ください。
データ行とサイズを確認する
- 挿入された行数を確認します:
- このテーブルが使用しているディスクスペースを確認します:
サンプルクエリ
Q1: 特定の年における各気象台の最高露点温度を取得
Q2: 特定の期間、フィールド、気象台による生データの取得
クレジット
中央気象局および農業委員会の農業気象観測ネットワーク(ステーション)によるこのデータセットの準備、クリーンアップ、および配布の努力に感謝いたします。あなたの努力に感謝します。
Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. 台湾における稲のいもち病の早期警告のための応用指向深層学習モデル。Ecological Informatics 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [2022年12月13日]