メインコンテンツまでスキップ
メインコンテンツまでスキップ

urlCluster テーブル関数

指定されたクラスターの複数のノードからURLのファイルを並行処理することを可能にします。イニシエーターはクラスター内のすべてのノードへの接続を作成し、URLファイルパスにアスタリスクを明示し、各ファイルを動的にディスパッチします。ワーカーノードでは、次に処理するタスクについてイニシエーターに要求し、それを処理します。これはすべてのタスクが完了するまで繰り返されます。

構文

引数

  • cluster_name — リモートおよびローカルサーバーへのアドレスと接続パラメータのセットを構成するために使用されるクラスターの名前。
  • URLGETリクエストを受け入れることができるHTTPまたはHTTPSサーバーアドレス。タイプ: String
  • format — データの形式。タイプ: String
  • structure'UserID UInt64, Name String'形式のテーブル構造。カラム名とタイプを決定します。タイプ: String

返される値

指定された形式と構造、および定義されたURLからのデータを持つテーブル。

HTTPサーバーからCSV形式で応答し、StringおよびUInt32型のカラムを含むテーブルの最初の3行を取得します。

  1. 標準のPython 3ツールを使用して基本的なHTTPサーバーを作成し、起動します:

URL内のグロブ

波括弧 { } 内のパターンは、シャードのセットを生成するため、またはフェイルオーバーアドレスを指定するために使用されます。サポートされているパターンタイプと例については、remote関数の説明を参照してください。 パターン内の文字 | はフェイルオーバーアドレスを指定するために使用されます。それらは、パターンにリストされているのと同じ順序で繰り返されます。生成されるアドレスの数は、glob_expansion_max_elements設定によって制限されています。

関連情報