メインコンテンツまでスキップ
メインコンテンツまでスキップ

Spark JDBC

JDBCはSparkで最も一般的に使用されるデータソースの一つです。 このセクションでは、Sparkでの ClickHouse公式JDBCコネクタ の使用方法について説明します。

Read data

Write data

Parallelism

Spark JDBCを使用する際、Sparkはデータを単一のパーティションを使用して読み取ります。より高い同時実行性を実現するには、partitionColumnlowerBoundupperBound、およびnumPartitionsを指定する必要があります。これにより、複数のワーカーから並行して読み取る際にテーブルをどのようにパーティション分けするかが説明されます。 詳細については、Apache Sparkの公式ドキュメントで JDBC設定 をご覧ください。

JDBC Limitations

  • 現在、JDBCを使用してデータを挿入できるのは既存のテーブルのみです(DFの挿入時にテーブルを自動作成する方法は現在ありません。他のコネクタのようにSparkが行うように)。