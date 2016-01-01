Интеграция BigQuery с ClickHouse Cloud

Private preview in ClickHouse Cloud Private preview in ClickHouse Cloud

Примечание Вы можете записаться в список ожидания Private Preview здесь.

ClickPipe для BigQuery предоставляет полностью управляемый и отказоустойчивый способ приёма данных из BigQuery в ClickHouse Cloud. В рамках Private Preview он поддерживает метод репликации initial load, позволяющий массово загружать наборы данных BigQuery для исследования и прототипирования. Поддержка CDC будет добавлена в будущем — до тех пор мы рекомендуем использовать Google Cloud Storage ClickPipe для непрерывной синхронизации экспортируемых данных BigQuery с ClickHouse Cloud после завершения первоначальной загрузки.

ClickPipes для BigQuery могут развёртываться и управляться вручную через интерфейс ClickPipes, а также программно с использованием OpenAPI и Terraform.

BigQuery ClickPipe выполнит загрузку выбранных таблиц из набора данных BigQuery в целевые таблицы ClickHouse в рамках одной пакетной операции. После завершения задачи ингестии ClickPipe останавливается автоматически. Для процесса ингестии при первоначальной загрузке требуется предоставленный пользователем bucket Google Cloud Storage (GCS) для промежуточного хранения (staging). В будущем промежуточный bucket будет предоставляться и управляться ClickPipes.

Примечание ClickPipes использует пакетные задания извлечения для выборки данных из BigQuery во временный bucket GCS. Эти операции не приводят к начислению платы за обработку в BigQuery.

CDC не поддерживается на этапе Private Preview, но будет поддерживаться в будущем. А пока мы рекомендуем использовать Google Cloud Storage ClickPipe для непрерывной синхронизации экспортов данных BigQuery в ClickHouse Cloud после выполнения первоначальной загрузки.

Типы данных BigQuery.

Тип данных BigQuery Тип данных ClickHouse Подробности BOOL Bool INT64 Int64 FLOAT64 Float64 NUMERIC Decimal(P, S) Точность до 38, масштаб до 9. Точность и масштаб сохраняются. BIGNUMERIC Decimal(P, S) Точность до 76, масштаб до 38. Точность и масштаб сохраняются. STRING String BYTES String JSON String (JSON) DATE Date TIME String Микросекундная точность. DATETIME DateTime Микросекундная точность. TIMESTAMP DateTime64(6) Микросекундная точность. GEOGRAPHY String GEOMETRY String UUID String ARRAY<T> Array(T) ARRAY<DATE> Array(Date) STRUCT (RECORD) String

ClickPipes аутентифицируется в вашем проекте Google Cloud с использованием ключа сервисного аккаунта. Рекомендуем создать отдельный сервисный аккаунт с минимально необходимым набором прав доступа, чтобы ClickPipes мог экспортировать данные из BigQuery, загружать их во временный (staging) бакет в GCS и затем загружать их в ClickHouse.

Сервисная учётная запись должна иметь следующие роли BigQuery:

Чтобы точнее ограничить доступ, рекомендуется использовать IAM conditions для сужения перечня ресурсов, к которым имеет доступ роль. Например, вы можете ограничить роль dataViewer конкретным датасетом, который содержит таблицы для синхронизации:

resource.name.startsWith("projects/<PROJECT_ID>/datasets/<DATASET_NAME>")

У учетной записи службы должны быть следующие роли Cloud Storage:

Чтобы еще более точно ограничить доступ, рекомендуется использовать условия IAM для ограничения ресурсов, к которым имеет доступ роль. Например, вы можете ограничить действие ролей objectAdmin и bucketViewer только выделенным бакетом, созданным для синхронизаций ClickPipes.