台湾の歴史的気象データセット
このデータセットには、過去128年間の気象観測データが含まれています。各行は、特定の日付、時間、および気象観測所の測定値を示しています。
このデータセットの起源については、こちらで確認でき、気象観測所の番号リストはこちらで見つけることができます。
気象データセットのソースには、中央気象局が設立した気象観測所(ステーションコードはC0、C1、4で始まる)や農業委員会に属する農業気象観測所(上記以外のステーションコード)が含まれています:
- StationId
- MeasuredDate:観測時間
- StnPres:観測所の気圧
- SeaPres:海面気圧
- Td:露点温度
- RH:相対湿度
- その他の要素(利用可能な場合)
データのダウンロード
- 前処理済みバージョンのデータは、ClickHouse用にクリーンナップ、再構築、強化されたものです。このデータセットは1896年から2023年までの年をカバーしています。
- 元の生データをダウンロードし、ClickHouseが必要とするフォーマットに変換します。独自のカラムを追加したいユーザーは、自分のアプローチを探求または完成させることをお勧めします。
前処理済みデータ
データセットは、行ごとの測定から、気象観測所IDおよび測定日ごとの行への再構築が行われています。すなわち、
クエリが容易で、結果のテーブルがスパースが少なく、一部の要素がこの気象観測所で測定できないためにnullであることを確認できます。
このデータセットは、以下のGoogle CloudStorageの場所で利用可能です。データセットをローカルファイルシステムにダウンロードするか(ClickHouseクライアントを使用して挿入)、直接ClickHouseに挿入してください(URLからの挿入を参照)。
ダウンロード方法:
元の生データ
元の生データをダウンロードして変換および変容するためのステップに関する詳細は以下の通りです。
ダウンロード
元の生データをダウンロードするには:
台湾の気象観測所を取得
テーブルスキーマの作成
ClickHouseでMergeTreeテーブルを作成します(ClickHouseクライアントから)。
ClickHouseへの挿入
ローカルファイルからの挿入
データは以下のようにローカルファイルから挿入できます(ClickHouseクライアントから):
ここで、/path/to
はディスク上のローカルファイルへの特定のユーザーパスを表します。
データをClickHouseに挿入した後のサンプルレスポンス出力は以下の通りです:
URLからの挿入
これを高速化する方法については、大規模データのロードのチューニングに関するブログ記事をご覧ください。
データ行とサイズの確認
- 挿入された行数を確認しましょう:
- このテーブルのディスクスペースの使用量を確認しましょう:
サンプルクエリ
Q1: 特定の年における各気象観測所の露点温度の最高値を取得
Q2: 特定の期間における生データの取得、フィールドおよび気象観測所
クレジット
このデータセットの準備、クリーンナップ、配布に関して、中央気象局および農業委員会の農業気象観測ネットワーク(ステーション)の努力に感謝の意を表します。あなたの努力に感謝します。
Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. Application-oriented deep learning model for early warning of rice blast in Taiwan. Ecological Informatics 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [13/12/2022]