教程和示例数据集
我们有许多资源可以帮助你入门并了解 ClickHouse 的工作原理:
- 如果你需要让 ClickHouse 启动和运行,请查看我们的 快速开始
- ClickHouse 教程 分析了纽约市出租车乘车数据集
此外,示例数据集提供了在 ClickHouse 上工作的绝佳体验,学习重要的技术和技巧,了解如何利用 ClickHouse 中许多强大的函数。示例数据集包括:
页面 | 描述 |
---|---|
纽约出租车数据 | 自 2009 年以来,来自纽约市的数十亿次出租车及租赁车辆 (Uber, Lyft 等) 行程数据 |
Criteo 点击日志 (Terabyte) | 来自 Criteo 的一 terabyte 点击日志 |
WikiStat | 探索包含 0.5 万亿条记录的 WikiStat 数据集。 |
TPC-DS (2012) | TPC-DS 基准数据集和查询。 |
食谱数据集 | 包含 220 万个食谱的 RecipeNLG 数据集 |
COVID-19 开放数据 | COVID-19 开放数据是一个大型、开源的 COVID-19 流行病学数据和相关因素(如人口统计、经济和政府响应)的数据库 |
NOAA 全球历史气候网络 | 过去 120 年中 25 亿行气候数据 |
GitHub 事件数据集 | 包含 2011 年至 2020 年 12 月 6 日所有 GitHub 事件的数据集,包含 31 亿条记录。 |
亚马逊客户评论 | 超过 1.5 亿条亚马逊产品的客户评论 |
布朗大学基准 | 用于机器生成日志数据的新分析基准 |
使用 GitHub 数据在 ClickHouse 中编写查询 | 包含 ClickHouse 仓库所有提交和更改的数据集 |
使用 ClickHouse 分析 Stack Overflow 数据 | 使用 ClickHouse 分析 Stack Overflow 数据 |
AMPLab 大数据基准 | 用于比较数据仓库解决方案性能的基准数据集。 |
纽约公共图书馆“菜单上有什么?”数据集 | 包含 130 万条历史餐单数据的数据库,涉及酒店、餐厅和咖啡馆的菜肴及其价格。 |
Laion-400M 数据集 | 包含 4 亿张附有英文图片说明的图像的数据集 |
星型模式基准 (SSB, 2009) | 星型模式基准 (SSB) 数据集和查询 |
英国房地产价格数据集 | 学习如何使用投影来改善你频繁运行的查询的性能,该数据集包含关于英格兰和威尔士房地产价格的数据 |
Reddit 评论数据集 | 包含自 2005 年 12 月至 2023 年 3 月的 Reddit 上公开评论的数据集,数据以 JSON 格式存储,包含超过 140 亿行数据 |
准时性数据 | 包含航空公司航班准时性的表现数据集 |
台湾历史天气数据集 | 过去 128 年的天气观测数据,包含 1.31 亿行 |
来自 OpenSky 网络 2020 年的众包航空交通数据 | 此数据集中的数据从完整的 OpenSky 数据集中派生并清理,以说明 COVID-19 大流行期间航空交通的发展。 |
NYPD 投诉数据 | 在 5 个步骤中摄取并查询制表符分隔值数据 |
TPC-H (1999) | TPC-H 基准数据集和查询。 |
YouTube 不喜欢数据集 | YouTube 视频的不喜欢收集。 |
使用基站数据进行地理数据分析 | 学习如何将 OpenCelliD 数据加载到 ClickHouse 中,将 Apache Superset 连接到 ClickHouse 并基于数据构建仪表板 |
环境传感器数据 | 来自 Sensor.Community 的超过 200 亿条数据记录,这是一个由贡献者驱动的全球传感器网络,创建开放环境数据。 |
匿名网页分析 | 包含两个表的匿名网页分析数据集,包含点击和访问数据 |