メインコンテンツまでスキップ
メインコンテンツまでスキップ

台湾の歴史的天候データセット

このデータセットは、過去128年間の歴史的気象観測測定値を含んでいます。各行は、特定の日付と時間および気象観測所での測定を示しています。

このデータセットの起源はこちらで入手可能で、気象観測所の番号のリストはこちらで確認できます。

気象データセットのソースには、中央気象局が設置した気象観測所(ステーショコードはC0、C1、または4で始まる)と、農業委員会に属する農業気象観測所(上記以外のステーショコード)が含まれます:

  • StationId
  • MeasuredDate、観測時間
  • StnPres、観測所の気圧
  • SeaPres、海面気圧
  • Td、露点温度
  • RH、相対湿度
  • 利用可能なその他の要素

データのダウンロード

  • ClickHouse用に前処理されたバージョンのデータで、清掃され、再構成され、強化されています。このデータセットは1896年から2023年までの期間をカバーしています。
  • 元の生データをダウンロードし、ClickHouseが要求する形式に変換してください。独自のカラムを追加したいユーザーは、自分のアプローチを探求または完成させることをお勧めします。

前処理されたデータ

データセットは、行ごとの測定から、気象観測所IDと測定日ごとの行に再構成されています。すなわち、

クエリが簡単に実行でき、結果のテーブルはスパースが少なく、一部の要素はこの気象観測所では測定できないためにnullになる可能性があります。

このデータセットは、以下のGoogle CloudStorageの場所で利用可能です。データセットをローカルファイルシステムにダウンロード(そしてClickHouseクライアントで挿入)するか、ClickHouseに直接挿入してください(URLからの挿入を参照)。

ダウンロードするには:

元の生データ

以下は、元の生データをダウンロードし、変換・編集する手順についての詳細です。

ダウンロード

元の生データをダウンロードするには:

台湾の気象観測所を取得

テーブルスキーマの作成

ClickHouseでMergeTreeテーブルを作成します(ClickHouseクライアントから)。

ClickHouseへの挿入

ローカルファイルからの挿入

データは以下のようにローカルファイルから挿入できます(ClickHouseクライアントから):

ここで/path/toは、ディスク上のローカルファイルへの特定のユーザーパスを表します。

データをClickHouseに挿入した後のサンプルレスポンス出力は次の通りです:

URLからの挿入

これを高速化する方法については、大規模データの読み込みの調整に関するブログ記事を参照してください。

データ行とサイズのチェック

  1. 挿入された行数を確認するには:
  1. このテーブルが使用しているディスクスペースを確認するには:

サンプルクエリ

Q1: 特定の年における各気象観測所の最高露点温度を取得する

Q2: 特定の期間、フィールド、および気象観測所による生データの取得

クレジット

中央気象局および農業委員会の農業気象観測ネットワーク(ステーション)によるこのデータセットの準備、清掃、および配布に対する努力を認識したいと思います。あなたの努力に感謝します。

Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. 台湾での稲のいもち病の早期警告のための応用指向の深層学習モデル。生態情報学 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [13/12/2022]