Spark JDBC
JDBC 是 Spark 中最常用的数据源之一。 在本节中,我们将提供有关如何在 Spark 中使用 ClickHouse 官方 JDBC 连接器 的详细信息。
读取数据
- Java
- Scala
- Python
- Spark SQL
写入数据
- Java
- Scala
- Python
- Spark SQL
并行性
使用 Spark JDBC 时,Spark 使用单个分区读取数据。要实现更高的并发性,您必须指定 partitionColumn
、lowerBound
、upperBound
和 numPartitions
,这些选项描述了如何在从多个工作节点并行读取时对表进行分区。
有关更多信息,请访问 Apache Spark 的官方文档,了解 JDBC 配置。
JDBC 限制
- 截至目前,您只能通过 JDBC 向现有表中插入数据(目前没有方法在 DF 插入时自动创建表,正如 Spark 在使用其他连接器时所做的那样)。