Spark JDBC
JDBC является одним из самых часто используемых источников данных в Spark. В этом разделе мы предоставим детали о том, как использовать официальный JDBC коннектор ClickHouse с Spark.
Чтение данных
- Java
- Scala
- Python
- Spark SQL
Запись данных
- Java
- Scala
- Python
- Spark SQL
Параллелизм
При использовании Spark JDBC Spark считывает данные, используя одну партицию. Для достижения более высокой степени параллелизма необходимо указать
partitionColumn
, lowerBound
, upperBound
и numPartitions
, которые описывают, как партиционировать таблицу при
чтении по параллельным рабочим узлам.
Пожалуйста, посетите официальную документацию Apache Spark для получения дополнительной информации о конфигурациях JDBC.
Ограничения JDBC
- На сегодняшний день вы можете вставлять данные с помощью JDBC только в существующие таблицы (в настоящее время нет возможности автоматически создавать таблицу при вставке DF, как это делает Spark с другими коннекторами).