Руководства и Примерные Наборы Данных
У нас есть много ресурсов, которые помогут вам начать работу и узнать, как работает ClickHouse:
- Если вам нужно установить ClickHouse и запустить его, ознакомьтесь с нашим Быстрым Началом
- В Руководстве по ClickHouse анализируется набор данных о поездках такси в Нью-Йорке
Кроме того, примерные наборы данных предлагают отличные возможности для работы с ClickHouse, освоения важных техник и приемов, а также для того, чтобы увидеть, как воспользоваться многими мощными функциями ClickHouse. Примерные наборы данных включают:
Страница | Описание |
---|---|
Данные такси Нью-Йорка | Данные о миллиардах поездок такси и такси на условиях найма (Uber, Lyft и т.д.), начавшихся в Нью-Йорке с 2009 года |
Терабайтные журналы кликов от Criteo | Терабайт данных из журналов кликов от Criteo |
WikiStat | Исследуйте набор данных WikiStat, содержащий 0.5 триллиона записей. |
TPC-DS (2012) | Набор данных и запросы для бенчмарка TPC-DS. |
Набор данных рецептов | Набор данных RecipeNLG, содержащий 2.2 миллиона рецептов |
Открытые данные COVID-19 | Открытые данные COVID-19 — это большая база данных с открытым исходным кодом, содержащая эпидемиологические данные о COVID-19 и связанные с ними факторы, такие как демография, экономика и правительственные ответы |
Глобальная историческая сеть климатологии NOAA | 2.5 миллиарда строк климатических данных за последние 120 лет |
Набор данных событий GitHub | Набор данных, содержащий все события на GitHub с 2011 года по 6 декабря 2020 года, размером 3.1 миллиарда записей. |
Обзоры продуктов Amazon | Более 150 миллионов отзывов клиентов о продуктах Amazon |
Бенчмарк Университета Брауна | Новый аналитический бенчмарк для данных логов, сгенерированных машинами |
Написание запросов в ClickHouse с использованием данных GitHub | Набор данных, содержащий все коммиты и изменения для репозитория ClickHouse |
Анализ данных Stack Overflow с ClickHouse | Анализ данных Stack Overflow с ClickHouse |
Бенчмарк Big Data AMPLab | Набор данных для бенчмарка, используемый для сравнения производительности решений по хранению данных. |
Набор данных "Что на меню?" Библиотеки Нью-Йорка | Набор данных, содержащий 1.3 миллиона записей исторических данных о меню отелей, ресторанов и кафе с блюдами и их ценами. |
Набор данных Laion-400M | Набор данных, содержащий 400 миллионов изображений с английскими подписями к изображениям |
Бенчмарк звёздной схемы (SSB, 2009) | Набор данных и запросы для бенчмарка звёздной схемы (SSB) |
Набор данных цен на недвижимость в Великобритании | Узнайте, как использовать проекции для повышения производительности запросов, которые вы выполняете часто, с использованием набора данных о недвижимости в Великобритании, который содержит данные о ценах, уплаченных за недвижимость в Англии и Уэльсе |
Набор данных комментариев Reddit | Набор данных, содержащий общедоступные комментарии на Reddit с декабря 2005 года по март 2023 года, с более чем 14 миллиардами строк данных в формате JSON |
OnTime | Набор данных, содержащий данные о пунктуальности рейсов авиакомпаний |
Исторические метеорологические наборы данных Тайваня | 131 миллион строк данных наблюдений за погодой за последние 128 лет |
Данные о воздушном движении, собранные от The OpenSky Network (2020) | Данные в этом наборе получены и очищены из полного набора данных OpenSky, чтобы проиллюстрировать развитие воздушного движения во время пандемии COVID-19. |
Данные жалоб NYPD | Прием и запрос данных в формате Tab Separated Value за 5 шагов |
TPC-H (1999) | Набор данных и запросы для бенчмарка TPC-H. |
Места на Foursquare | Набор данных с более чем 100 миллионами записей, содержащих информацию о местах на карте, таких как магазины, рестораны, парки, игровые площадки и памятники. |
Набор данных YouTube о дизлайках | Коллекция дизлайков к видео на YouTube. |
Геоданные с использованием набора данных вышек сотовой связи | Узнайте, как загрузить данные OpenCelliD в ClickHouse, подключить Apache Superset к ClickHouse и создать панель управления на основе данных |
Данные от датчиков окружающей среды | Более 20 миллиардов записей данных от Sensor.Community, глобальной сети сенсоров, созданной участниками, которая создает открытые данные об окружающей среде. |
Анонимизированная веб-аналитика | Набор данных, состоящий из двух таблиц, содержащих анонимизированные данные веб-аналитики о посещениях и хитов |