教程和示例数据集
我们有很多资源可以帮助您入门并了解 ClickHouse 的工作原理:
- 如果您需要让 ClickHouse 快速运行,请查看我们的 快速开始
- ClickHouse 教程 分析了纽约市出租车出行的数据集
此外,示例数据集提供了良好的使用 ClickHouse 经验,学习重要的技术和技巧,并了解如何利用 ClickHouse 中许多强大的功能。示例数据集包括:
页面 | 描述 |
---|---|
纽约出租车数据 | 自 2009 年以来来自纽约市的数十亿次出租车和租车(Uber,Lyft 等)出行的数据 |
Criteo 的 TB 点击日志 | 来自 Criteo 的一 terabyte 点击日志 |
WikiStat | 探索包含 0.5 万亿条记录的 WikiStat 数据集。 |
TPC-DS (2012) | TPC-DS 基准数据集和查询。 |
食谱数据集 | RecipeNLG 数据集,包含 220 万个食谱 |
COVID-19 开放数据 | COVID-19 开放数据是一个大型开放源代码数据库,包含 COVID-19 流行病学数据及相关因素,如人口统计、经济和政府响应 |
NOAA 全球历史气候网络 | 过去 120 年的 25 亿行气候数据 |
GitHub 事件数据集 | 包含从 2011 到 2020 年 12 月 6 日 GitHub 上所有事件的数据集,大小为 31 亿条记录。 |
亚马逊客户评论 | 超过 1.5 亿条亚马逊产品的客户评论 |
布朗大学基准 | 一种用于机器生成日志数据的新分析基准 |
使用 GitHub 数据在 ClickHouse 中编写查询 | 包含 ClickHouse 仓库所有提交和更改的数据集 |
使用 ClickHouse 分析 Stack Overflow 数据 | 使用 ClickHouse 分析 Stack Overflow 数据 |
AMPLab 大数据基准 | 用于比较数据仓库解决方案性能的基准数据集。 |
纽约公共图书馆“菜单上有什么?”数据集 | 包含关于酒店、餐馆和咖啡馆菜单的历史数据的 130 万条记录,包含菜品及其价格。 |
Laion-400M 数据集 | 包含 4 亿张带有英文图像说明的图像的数据集 |
星型模式基准 (SSB, 2009) | 星型模式基准 (SSB) 数据集和查询 |
英国房产价格数据集 | 学习如何使用投影来提高您经常运行的查询的性能,使用 UK 房产数据集,其中包含关于英格兰和威尔士房地产交易价格的数据 |
Reddit 评论数据集 | 包含从 2005 年 12 月到 2023 年 3 月 Reddit 上公开评论的数据集,包含超过 140 亿行 JSON 格式数据 |
OnTime | 包含航空公司航班准时表现的数据集 |
台湾历史气象数据集 | 过去 128 年的 1.31 亿行天气观测数据 |
来自 OpenSky 网络的众包空中交通数据 2020 | 该数据集中的数据来源并从完整的 OpenSky 数据集清理,以说明 COVID-19 大流行期间的空中交通发展。 |
NYPD 投诉数据 | 以 5 个步骤吸收和查询制表符分隔值数据 |
TPC-H (1999) | TPC-H 基准数据集和查询。 |
Foursquare 地点 | 具有超过 1 亿条记录的数据集,包含有关地图上地方的信息,例如商店、餐馆、公园、游乐场和纪念碑。 |
YouTube 不喜欢的数据集 | YouTube 视频的不喜欢集合。 |
使用移动塔数据的地理数据 | 学习如何将 OpenCelliD 数据加载到 ClickHouse,将 Apache Superset 连接到 ClickHouse,并基于数据构建仪表板 |
环境传感器数据 | 来自 Sensor.Community 的超过 200 亿条记录的数据,这是一个由贡献者驱动的全球传感器网络,创建开放的环境数据。 |
匿名网站分析 | 包含两个表的数据集,包含匿名网站分析数据及其访问量和点击量 |