Перейти к основному содержимому
Перейти к основному содержимому

Spark JDBC

JDBC является одним из самых часто используемых источников данных в Spark. В этом разделе мы предоставим детали о том, как использовать официальный JDBC коннектор ClickHouse с Spark.

Чтение данных

Запись данных

Параллелизм

При использовании Spark JDBC Spark считывает данные, используя одну партицию. Для достижения более высокой степени параллелизма необходимо указать partitionColumn, lowerBound, upperBound и numPartitions, которые описывают, как партиционировать таблицу при чтении по параллельным рабочим узлам. Пожалуйста, посетите официальную документацию Apache Spark для получения дополнительной информации о конфигурациях JDBC.

Ограничения JDBC

  • На сегодняшний день вы можете вставлять данные с помощью JDBC только в существующие таблицы (в настоящее время нет возможности автоматически создавать таблицу при вставке DF, как это делает Spark с другими коннекторами).