跳到主要内容
跳到主要内容

台湾历史天气数据集

该数据集包含过去128年的历史气象观测数据。每一行代表一个特定时间点和天气站的测量数据。

这一数据集的来源可以在 这里 找到,天气站编号的列表可以在 这里 找到。

气象数据集的来源包括由中央气象局建立的气象站(站点编号以C0、C1和4开头)和属于农委会的农业气象站(站点编号除上述以外):

  • StationId
  • MeasuredDate,观测时间
  • StnPres,站点气压
  • SeaPres,海平面气压
  • Td,露点温度
  • RH,相对湿度
  • 其他可用的元素

下载数据

  • 预处理版本 的数据用于ClickHouse,已被清理、重构和丰富。此数据集覆盖1896年至2023年。
  • 下载原始数据 并转换为ClickHouse所需的格式。希望添加自己列的用户可以探索或补充他们的方法。

预处理数据

该数据集已从每行一个测量转换为每个天气站ID和测量日期一行,即:

可以容易地执行查询并确保生成的表格较少稀疏且某些元素为null,因为它们在此气象站不可用进行测量。

该数据集可在以下Google CloudStorage位置获得。您可以将数据集下载到本地文件系统(并通过ClickHouse客户端插入),或者直接插入到ClickHouse中(请参见 从URL插入)。

下载方式:

原始数据

以下是关于下载原始数据的步骤,以便您进行转换和处理。

下载

要下载原始数据:

获取台湾天气站

创建表模式

在ClickHouse中创建MergeTree表(通过ClickHouse客户端)。

插入到ClickHouse

从本地文件插入

数据可以从本地文件插入,如下所示(通过ClickHouse客户端):

其中 /path/to 表示用户特定的文件路径。

在将数据插入ClickHouse后,样本响应输出如下:

从URL插入

要了解如何加快此过程,请参见我们的博客文章 调优大数据加载

检查数据行和大小

  1. 让我们看看已插入多少行:
  1. 让我们看看此表使用了多少磁盘空间:

示例查询

Q1: 检索特定年份每个天气站的最高露点温度

Q2: 具具体时间范围、字段和天气站的原始数据提取

鸣谢

我们要感谢中央气象局和农委会农业气象观测网络(站)为准备、清理和分发此数据集所做的努力。我们感谢您们的努力。

Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. 面向应用的深度学习模型用于台湾稻飞虱的预警。生态信息学 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [2022年12月13日]