Перейти к основному содержанию
Перейти к основному содержанию

Вставка и выгрузка SQL-данных в ClickHouse

ClickHouse можно легко интегрировать в OLTP‑инфраструктуры баз данных разными способами. Один из вариантов — передавать данные между другими базами данных и ClickHouse с помощью SQL‑дампов.

Создание SQL-дампов

Данные можно выгрузить в формате SQL с помощью SQLInsert. ClickHouse запишет данные в виде INSERT INTO <table name> VALUES(... и будет использовать настройку output_format_sql_insert_table_name в качестве имени таблицы:

SET output_format_sql_insert_table_name = 'some_table';
SELECT * FROM some_data
INTO OUTFILE 'dump.sql'
FORMAT SQLInsert

Имена столбцов можно опустить, отключив настройку output_format_sql_insert_include_column_names:

SET output_format_sql_insert_include_column_names = 0

Теперь мы можем загрузить файл dump.sql в другую OLTP-базу данных:

mysql some_db < dump.sql

Мы предполагаем, что таблица some_table существует в базе данных MySQL some_db.

Некоторые СУБД могут иметь ограничения на количество значений, которые могут быть обработаны в одном пакете. По умолчанию ClickHouse будет создавать пакеты по 65 тыс. значений, но это можно изменить с помощью опции output_format_sql_insert_max_batch_size:

SET output_format_sql_insert_max_batch_size = 1000;

Экспорт набора значений

В ClickHouse есть формат Values, который аналогичен SQL INSERT, но опускает оператор INSERT INTO table VALUES и содержит только набор значений:

SELECT * FROM some_data LIMIT 3 FORMAT Values
('Bangor_City_Forest','2015-07-01',34),('Alireza_Afzal','2017-02-01',24),('Akhaura-Laksam-Chittagong_Line','2015-09-01',30)

Импорт данных из SQL-дампов

Для чтения SQL-дампов используется формат MySQLDump:

SELECT *
FROM file('dump.sql', MySQLDump)
LIMIT 5
┌─path───────────────────────────┬──────month─┬─hits─┐
│ Bangor_City_Forest             │ 2015-07-01 │   34 │
│ Alireza_Afzal                  │ 2017-02-01 │   24 │
│ Akhaura-Laksam-Chittagong_Line │ 2015-09-01 │   30 │
│ 1973_National_500              │ 2017-10-01 │   80 │
│ Attachment                     │ 2017-09-01 │ 1356 │
└────────────────────────────────┴────────────┴──────┘

По умолчанию ClickHouse будет пропускать неизвестные столбцы (за это отвечает опция input_format_skip_unknown_fields) и обрабатывать данные для первой найденной в дампе таблицы (если в один файл выгружено несколько таблиц). Операторы DDL будут пропущены. Чтобы загрузить данные из дампа MySQL в таблицу (файл mysql.sql):

INSERT INTO some_data
FROM INFILE 'mysql.sql' FORMAT MySQLDump

Мы также можем автоматически создать таблицу на основе файла дампа MySQL:

CREATE TABLE table_from_mysql
ENGINE = MergeTree
ORDER BY tuple() AS
SELECT *
FROM file('mysql.sql', MySQLDump)

Здесь мы создали таблицу с именем table_from_mysql на основе структуры, которую ClickHouse автоматически определил. ClickHouse либо определяет типы на основе данных, либо использует DDL, если она доступна:

DESCRIBE TABLE table_from_mysql;
┌─name──┬─type─────────────┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐
│ path  │ Nullable(String) │              │                    │         │                  │                │
│ month │ Nullable(Date32) │              │                    │         │                  │                │
│ hits  │ Nullable(UInt32) │              │                    │         │                  │                │
└───────┴──────────────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘

Другие форматы

ClickHouse поддерживает множество форматов, как текстовых, так и бинарных, чтобы охватить различные сценарии и платформы. Узнайте больше о форматах и способах работы с ними в следующих статьях:

Также ознакомьтесь с clickhouse-local — переносимым полнофункциональным инструментом для работы с локальными и удалёнными файлами без необходимости запускать сервер ClickHouse.