Spark JDBC
JDBC是Spark中最常用的数据源之一。 在本节中,我们将提供有关如何 使用 ClickHouse官方JDBC连接器 与Spark的详细信息。
Read data
- Java
- Scala
- Python
- Spark SQL
Write data
- Java
- Scala
- Python
- Spark SQL
Parallelism
在使用Spark JDBC时,Spark使用单个分区读取数据。为了实现更高的并发性,您必须指定
partitionColumn
、lowerBound
、upperBound
和numPartitions
,这些描述了在从多个工作节点并行读取时如何对表进行分区。
请访问Apache Spark的官方文档以获取有关 JDBC配置 的更多信息。
JDBC Limitations
- 截至今天,您只能通过JDBC向现有表插入数据(目前没有办法在DF插入时自动创建表,正如Spark与其他连接器所做的那样)。