メインコンテンツまでスキップ
メインコンテンツまでスキップ

Spark JDBC

JDBCは、Sparkで最も一般的に使用されるデータソースの1つです。 このセクションでは、Sparkと共に使用するためのClickHouse公式JDBCコネクタの詳細を提供します。

データの読み取り

データの書き込み

並列性

Spark JDBCを使用する場合、Sparkは単一のパーティションを使用してデータを読み取ります。より高い同時実行性を達成するためには、partitionColumnlowerBoundupperBound、およびnumPartitionsを指定する必要があり、これは複数のワーカーから並列して読み取る際のテーブルのパーティショニング方法を説明します。 詳細については、Apache Sparkの公式ドキュメントにある JDBCの構成をご覧ください。

JDBCの制限

  • 現在のところ、JDBCを使用して既存のテーブルにのみデータを挿入することができます(DF挿入時にテーブルを自動作成する方法はなく、Sparkが他のコネクタで行うように)。