Apache Spark Submit 連線

Apache Spark Submit 連線型別透過 spark-submit 命令實現與 Apache Spark 的連線。

預設連線 ID

Spark Submit 和 Spark JDBC hooks 和 operators 預設使用 spark_default

配置連線

主機 (必填)

要連線的主機,可以是 local, yarn 或一個 URL。

埠 (可選)

如果主機是 URL,請指定埠。

YARN 佇列 (可選,僅適用於 YARN 上的 Spark 應用程式)

提交應用程式的 YARN 佇列名稱。

部署模式 (可選)

是否將驅動程式部署到工作節點 (cluster) 或本地作為外部客戶端 (client)。

Spark 二進位制檔案 (可選)

用於 Spark Submit 的命令。某些發行版可能使用 spark2-submit。預設為 spark-submit。只允許使用 spark-submit, spark2-submitspark3-submit 作為值。

Kubernetes 名稱空間 (可選,僅適用於 Kubernetes 上的 Spark 應用程式)

用於在多個使用者之間劃分叢集資源 (透過資源配額) 的 Kubernetes 名稱空間 (spark.kubernetes.namespace)。

在環境變數中指定連線時,應使用 URI 語法進行指定。

請注意,URI 的所有元件都應進行 URL 編碼。URI 和 mongo 連線字串是不同的。

例如

export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'

警告

請確保您信任您的使用者,允許他們配置主機設定,因為這可能使連線能夠與外部伺服器建立通訊。務必理解,將連線指向惡意伺服器可能導致嚴重的安全漏洞,包括遭遇遠端程式碼執行 (RCE) 攻擊的風險。

此條目有幫助嗎?