Apache Spark Submit 連線¶
Apache Spark Submit 連線型別透過 spark-submit 命令實現與 Apache Spark 的連線。
預設連線 ID¶
Spark Submit 和 Spark JDBC hooks 和 operators 預設使用 spark_default。
配置連線¶
- 主機 (必填)
要連線的主機,可以是
local,yarn或一個 URL。- 埠 (可選)
如果主機是 URL,請指定埠。
- YARN 佇列 (可選,僅適用於 YARN 上的 Spark 應用程式)
提交應用程式的 YARN 佇列名稱。
- 部署模式 (可選)
是否將驅動程式部署到工作節點 (cluster) 或本地作為外部客戶端 (client)。
- Spark 二進位制檔案 (可選)
用於 Spark Submit 的命令。某些發行版可能使用
spark2-submit。預設為spark-submit。只允許使用spark-submit,spark2-submit或spark3-submit作為值。- Kubernetes 名稱空間 (可選,僅適用於 Kubernetes 上的 Spark 應用程式)
用於在多個使用者之間劃分叢集資源 (透過資源配額) 的 Kubernetes 名稱空間 (
spark.kubernetes.namespace)。
在環境變數中指定連線時,應使用 URI 語法進行指定。
請注意,URI 的所有元件都應進行 URL 編碼。URI 和 mongo 連線字串是不同的。
例如
export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'
警告
請確保您信任您的使用者,允許他們配置主機設定,因為這可能使連線能夠與外部伺服器建立通訊。務必理解,將連線指向惡意伺服器可能導致嚴重的安全漏洞,包括遭遇遠端程式碼執行 (RCE) 攻擊的風險。