台湾历史天气数据集
该数据集包含过去 128 年的历史气象观测数据。每一行对应某一时间点和气象观测站的一条测量记录。
气象数据集来源包括由中央气象局设立的气象站(站号以 C0、C1 和 4 开头),以及隶属于农业委员会的农业气象站(站号为上述以外的编号):
- StationId
- MeasuredDate,观测时间
- StnPres,测站气压
- SeaPres,海平面气压
- Td,露点温度
- RH,相对湿度
- 其他可用的气象要素
下载数据
- 为 ClickHouse 准备的预处理数据版本,已经过清洗、重构和富化。该数据集覆盖 1896 年至 2023 年。
- 下载原始数据并转换为 ClickHouse 所需的格式。希望添加自定义列的用户可以在此基础上探索或完善自己的方案。
预处理数据
该数据集也已经从“每行一条测量记录”的结构重组为“每个气象站 ID 与测量日期对应一行”的结构,即:
可以很方便地进行查询,你会发现结果表的稀疏程度更低,但其中有些元素为 null,这是因为该气象站无法对它们进行观测和测量。
此数据集可在以下 Google Cloud Storage 位置获取。你可以将数据集下载到本地文件系统(然后使用 ClickHouse 客户端插入),或者直接插入到 ClickHouse 中(参见 Inserting from URL)。
下载方式如下:
原始数据
以下内容介绍如何下载原始数据,以便按需进行转换和处理。
下载
要下载原始数据:
获取台湾地区气象站列表
创建表结构
使用 ClickHouse 客户端在 ClickHouse 中创建 MergeTree 表。
向 ClickHouse 插入数据
从本地文件插入
可以在 ClickHouse 客户端中通过以下方式从本地文件插入数据:
其中 /path/to 表示磁盘上本地文件的特定用户路径。
向 ClickHouse 插入数据后,示例响应如下:
从 URL 插入数据
如需了解如何加快这一过程,请参阅我们关于优化大规模数据加载的博文。
检查数据行和大小
- 先查看已插入了多少行:
- 我们来看看这张表使用了多少磁盘空间:
查询示例
Q1: 查询指定年份中每个气象站的最高露点温度
Q2: 在特定时间范围内按字段和气象站获取原始数据
致谢
我们谨此感谢行政院农业委员会中央气象署及农业气象观测网(测站)在本数据集的准备、清洗和发布过程中所作出的贡献,谨致谢忱。
Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. Application-oriented deep learning model for early warning of rice blast in Taiwan. Ecological Informatics 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [13/12/2022]