跳到主要内容
跳到主要内容

教程和示例数据集

我们有许多资源可以帮助你入门并了解 ClickHouse 的工作原理:

此外,示例数据集提供了在 ClickHouse 上工作的绝佳体验,学习重要的技术和技巧,了解如何利用 ClickHouse 中许多强大的函数。示例数据集包括:

页面描述
纽约出租车数据自 2009 年以来,来自纽约市的数十亿次出租车及租赁车辆 (Uber, Lyft 等) 行程数据
Criteo 点击日志 (Terabyte)来自 Criteo 的一 terabyte 点击日志
WikiStat探索包含 0.5 万亿条记录的 WikiStat 数据集。
TPC-DS (2012)TPC-DS 基准数据集和查询。
食谱数据集包含 220 万个食谱的 RecipeNLG 数据集
COVID-19 开放数据COVID-19 开放数据是一个大型、开源的 COVID-19 流行病学数据和相关因素(如人口统计、经济和政府响应)的数据库
NOAA 全球历史气候网络过去 120 年中 25 亿行气候数据
GitHub 事件数据集包含 2011 年至 2020 年 12 月 6 日所有 GitHub 事件的数据集,包含 31 亿条记录。
亚马逊客户评论超过 1.5 亿条亚马逊产品的客户评论
布朗大学基准用于机器生成日志数据的新分析基准
使用 GitHub 数据在 ClickHouse 中编写查询包含 ClickHouse 仓库所有提交和更改的数据集
使用 ClickHouse 分析 Stack Overflow 数据使用 ClickHouse 分析 Stack Overflow 数据
AMPLab 大数据基准用于比较数据仓库解决方案性能的基准数据集。
纽约公共图书馆“菜单上有什么?”数据集包含 130 万条历史餐单数据的数据库,涉及酒店、餐厅和咖啡馆的菜肴及其价格。
Laion-400M 数据集包含 4 亿张附有英文图片说明的图像的数据集
星型模式基准 (SSB, 2009)星型模式基准 (SSB) 数据集和查询
英国房地产价格数据集学习如何使用投影来改善你频繁运行的查询的性能,该数据集包含关于英格兰和威尔士房地产价格的数据
Reddit 评论数据集包含自 2005 年 12 月至 2023 年 3 月的 Reddit 上公开评论的数据集,数据以 JSON 格式存储,包含超过 140 亿行数据
准时性数据包含航空公司航班准时性的表现数据集
台湾历史天气数据集过去 128 年的天气观测数据,包含 1.31 亿行
来自 OpenSky 网络 2020 年的众包航空交通数据此数据集中的数据从完整的 OpenSky 数据集中派生并清理,以说明 COVID-19 大流行期间航空交通的发展。
NYPD 投诉数据在 5 个步骤中摄取并查询制表符分隔值数据
TPC-H (1999)TPC-H 基准数据集和查询。
YouTube 不喜欢数据集YouTube 视频的不喜欢收集。
使用基站数据进行地理数据分析学习如何将 OpenCelliD 数据加载到 ClickHouse 中,将 Apache Superset 连接到 ClickHouse 并基于数据构建仪表板
环境传感器数据来自 Sensor.Community 的超过 200 亿条数据记录,这是一个由贡献者驱动的全球传感器网络,创建开放环境数据。
匿名网页分析包含两个表的匿名网页分析数据集,包含点击和访问数据