教程和示例数据集
我们提供了很多资源来帮助您入门并了解 ClickHouse 的工作原理:
- 如果您需要安装和运行 ClickHouse,请查看我们的 快速入门
- ClickHouse 教程 分析了纽约市出租车出行的数据集
此外,示例数据集为使用 ClickHouse 提供了很好的体验,帮助您学习重要的技术和技巧,以及了解如何利用 ClickHouse 中的许多强大功能。示例数据集包括:
| 页面 | 描述 |
|---|---|
| 美国国家海洋和大气管理局全球历史气候网络 | 过去 120 年的 25 亿行气候数据 |
| 使用 GitHub 数据在 ClickHouse 中编写查询 | 包含 ClickHouse 仓库所有提交和变更的数据集 |
| 使用 ClickHouse 分析 Stack Overflow 数据 | 使用 ClickHouse 分析 Stack Overflow 数据 |
| 英国房产价格数据集 | 学习如何使用投影提高您频繁运行的查询的性能,使用的 UK 房产数据集包含有关英格兰和威尔士房地产支付价格的数据 |
| 台湾历史气象数据集 | 过去 128 年的 1.31 亿行气象观测数据 |
| 纽约出租车数据 | 自 2009 年以来来自纽约市的数十亿次出租车和租用车辆(Uber、Lyft 等)出行的数据 |
| 使用手机信号塔数据的地理数据 | 学习如何将 OpenCelliD 数据加载到 ClickHouse 中,连接 Apache Superset 到 ClickHouse 并基于数据构建仪表板 |
| 亚马逊客户评价 | 超过 1.5 亿条亚马逊产品的客户评价 |
| AMPLab 大数据基准 | 用于比较数据仓库解决方案性能的基准数据集。 |
| 匿名网络分析 | 包含匿名网络分析数据(访问量和访问次数)的两个表的数据集 |
| 布朗大学基准 | 针对机器生成日志数据的新分析基准 |
| COVID-19 开放数据 | COVID-19 开放数据是一个大型开源数据库,包含 COVID-19 流行病学数据和与之相关的因素,如人口统计、经济和政府回应 |
| dbpedia 数据集 | 包含来自维基百科的 100 万篇文章及其向量嵌入的数据集 |
| 环境传感器数据 | 来自 Sensor.Community 的超过 200 亿条数据记录,这是一个由贡献者驱动的全球传感器网络,创建开放环境数据。 |
| Foursquare 地点 | 包含关于地图上地点(如商店、餐馆、公园、游乐场和纪念碑)信息的超过 1 亿条记录的数据集。 |
| GitHub 事件数据集 | 包含 2011 年至 2020 年 12 月 6 日间 GitHub 上所有事件的数据集,数据规模为 31 亿条记录。 |
| 黑客新闻数据集 | 包含 2800 万行黑客新闻数据的数据集。 |
| 黑客新闻向量搜索数据集 | 包含 2800 万条黑客新闻帖子及其向量嵌入的数据集 |
| LAION 5B 数据集 | 包含来自 LAION 5B 数据集的 1 亿个向量的数据集 |
| Laion-400M 数据集 | 包含 4 亿张带有英文图像标题的图像的数据集 |
| 纽约公共图书馆“菜单上有什么?”数据集 | 包含 130 万条关于酒店、餐厅和咖啡馆的历史菜单数据的记录,连同价格。 |
| 纽约市警察局投诉数据 | 5 步骤内摄取和查询制表符分隔值数据 |
| 准点 | 包含航空公司航班准点表现的数据集 |
| 星型模式基准 (SSB, 2009) | 星型模式基准 (SSB) 数据集和查询 |
| 来自 Criteo 的 TB 点击日志 | 来自 Criteo 的一个 TB 点击日志 |
| TPC-DS (2012) | TPC-DS 基准数据集和查询。 |
| TPC-H (1999) | TPC-H 基准数据集和查询。 |
| WikiStat | 探索包含 0.5 万亿条记录的 WikiStat 数据集。 |
| YouTube 的不喜欢数据集 | 一组 YouTube 视频的不喜欢记录。 |