跳到主要内容
跳到主要内容

教程和示例数据集

我们有很多资源可以帮助您入门并了解 ClickHouse 的工作原理:

此外,示例数据集提供了良好的使用 ClickHouse 经验,学习重要的技术和技巧,并了解如何利用 ClickHouse 中许多强大的功能。示例数据集包括:

页面描述
纽约出租车数据自 2009 年以来来自纽约市的数十亿次出租车和租车(Uber,Lyft 等)出行的数据
Criteo 的 TB 点击日志来自 Criteo 的一 terabyte 点击日志
WikiStat探索包含 0.5 万亿条记录的 WikiStat 数据集。
TPC-DS (2012)TPC-DS 基准数据集和查询。
食谱数据集RecipeNLG 数据集,包含 220 万个食谱
COVID-19 开放数据COVID-19 开放数据是一个大型开放源代码数据库,包含 COVID-19 流行病学数据及相关因素,如人口统计、经济和政府响应
NOAA 全球历史气候网络过去 120 年的 25 亿行气候数据
GitHub 事件数据集包含从 2011 到 2020 年 12 月 6 日 GitHub 上所有事件的数据集,大小为 31 亿条记录。
亚马逊客户评论超过 1.5 亿条亚马逊产品的客户评论
布朗大学基准一种用于机器生成日志数据的新分析基准
使用 GitHub 数据在 ClickHouse 中编写查询包含 ClickHouse 仓库所有提交和更改的数据集
使用 ClickHouse 分析 Stack Overflow 数据使用 ClickHouse 分析 Stack Overflow 数据
AMPLab 大数据基准用于比较数据仓库解决方案性能的基准数据集。
纽约公共图书馆“菜单上有什么?”数据集包含关于酒店、餐馆和咖啡馆菜单的历史数据的 130 万条记录,包含菜品及其价格。
Laion-400M 数据集包含 4 亿张带有英文图像说明的图像的数据集
星型模式基准 (SSB, 2009)星型模式基准 (SSB) 数据集和查询
英国房产价格数据集学习如何使用投影来提高您经常运行的查询的性能,使用 UK 房产数据集,其中包含关于英格兰和威尔士房地产交易价格的数据
Reddit 评论数据集包含从 2005 年 12 月到 2023 年 3 月 Reddit 上公开评论的数据集,包含超过 140 亿行 JSON 格式数据
OnTime包含航空公司航班准时表现的数据集
台湾历史气象数据集过去 128 年的 1.31 亿行天气观测数据
来自 OpenSky 网络的众包空中交通数据 2020该数据集中的数据来源并从完整的 OpenSky 数据集清理,以说明 COVID-19 大流行期间的空中交通发展。
NYPD 投诉数据以 5 个步骤吸收和查询制表符分隔值数据
TPC-H (1999)TPC-H 基准数据集和查询。
Foursquare 地点具有超过 1 亿条记录的数据集,包含有关地图上地方的信息,例如商店、餐馆、公园、游乐场和纪念碑。
YouTube 不喜欢的数据集YouTube 视频的不喜欢集合。
使用移动塔数据的地理数据学习如何将 OpenCelliD 数据加载到 ClickHouse,将 Apache Superset 连接到 ClickHouse,并基于数据构建仪表板
环境传感器数据来自 Sensor.Community 的超过 200 亿条记录的数据,这是一个由贡献者驱动的全球传感器网络,创建开放的环境数据。
匿名网站分析包含两个表的数据集,包含匿名网站分析数据及其访问量和点击量