Перейти к основному содержимому
Перейти к основному содержимому

amazon-reviews

description: 'Более 150 миллионов отзывов клиентов о продуктах Amazon' sidebar_label: 'Отзывы клиентов Amazon' slug: /getting-started/example-datasets/amazon-reviews title: 'Отзывы клиентов Amazon'

Строки выглядят следующим образом:

  1. Давайте определим новую таблицу MergeTree с именем amazon_reviews, чтобы сохранить эти данные в ClickHouse:
  1. Следующая команда INSERT использует функцию таблицы s3Cluster, которая позволяет обрабатывать несколько файлов S3 параллельно, используя все узлы вашего кластера. Мы также используем шаблон, чтобы вставить любой файл, который начинается с имени https://datasets-documentation.s3.eu-west-3.amazonaws.com/amazon_reviews/amazon_reviews_*.snappy.parquet:
подсказка

В ClickHouse Cloud название кластера — default. Измените default на название вашего кластера...или используйте функцию таблицы s3 (вместо s3Cluster), если у вас нет кластера.

  1. Этот запрос не занимает много времени — в среднем около 300,000 строк в секунду. В течение примерно 5 минут вы должны увидеть вставленные все строки:
  1. Давайте посмотрим, сколько места занимает наш набор данных:

Исходные данные занимали около 70 ГБ, но в ClickHouse они занимают около 30 ГБ.

Примеры запросов

  1. Давайте выполним несколько запросов. Вот 10 самых полезных отзывов в наборе данных:
примечание

Этот запрос использует проекцию для ускорения производительности.

  1. Вот 10 продуктов на Amazon с наибольшим количеством отзывов:
  1. Вот средние рейтинги отзывов по месяцам для каждого продукта (это фактический вопрос на собеседовании в Amazon!):
  1. Вот общее количество голосов по категориям продуктов. Этот запрос выполняется быстро, потому что product_category находится в первичном ключе:
  1. Давайте найдем продукты, в отзывах о которых чаще всего встречается слово "ужасно". Это большая задача — необходимо разобрать более 151 миллиона строк, чтобы найти одно слово:

Обратите внимание на время запроса для такого большого объема данных. Результаты также окажутся увлекательными!

  1. Мы можем выполнить тот же запрос снова, но на этот раз будем искать замечательно в отзывах: