amazon-reviews
description: 'Более 150 миллионов отзывов клиентов о продуктах Amazon' sidebar_label: 'Отзывы клиентов Amazon' slug: /getting-started/example-datasets/amazon-reviews title: 'Отзывы клиентов Amazon'
Строки выглядят следующим образом:
- Давайте определим новую таблицу
MergeTree
с именемamazon_reviews
, чтобы сохранить эти данные в ClickHouse:
- Следующая команда
INSERT
использует функцию таблицыs3Cluster
, которая позволяет обрабатывать несколько файлов S3 параллельно, используя все узлы вашего кластера. Мы также используем шаблон, чтобы вставить любой файл, который начинается с имениhttps://datasets-documentation.s3.eu-west-3.amazonaws.com/amazon_reviews/amazon_reviews_*.snappy.parquet
:
подсказка
В ClickHouse Cloud название кластера — default
. Измените default
на название вашего кластера...или используйте функцию таблицы s3
(вместо s3Cluster
), если у вас нет кластера.
- Этот запрос не занимает много времени — в среднем около 300,000 строк в секунду. В течение примерно 5 минут вы должны увидеть вставленные все строки:
- Давайте посмотрим, сколько места занимает наш набор данных:
Исходные данные занимали около 70 ГБ, но в ClickHouse они занимают около 30 ГБ.
Примеры запросов
- Давайте выполним несколько запросов. Вот 10 самых полезных отзывов в наборе данных:
примечание
Этот запрос использует проекцию для ускорения производительности.
- Вот 10 продуктов на Amazon с наибольшим количеством отзывов:
- Вот средние рейтинги отзывов по месяцам для каждого продукта (это фактический вопрос на собеседовании в Amazon!):
- Вот общее количество голосов по категориям продуктов. Этот запрос выполняется быстро, потому что
product_category
находится в первичном ключе:
- Давайте найдем продукты, в отзывах о которых чаще всего встречается слово "ужасно". Это большая задача — необходимо разобрать более 151 миллиона строк, чтобы найти одно слово:
Обратите внимание на время запроса для такого большого объема данных. Результаты также окажутся увлекательными!
- Мы можем выполнить тот же запрос снова, но на этот раз будем искать замечательно в отзывах: