airflow.providers.apache.spark.operators.spark_sql¶

類¶

SparkSqlOperator

執行 Spark SQL 查詢。

模組內容¶

類 airflow.providers.apache.spark.operators.spark_sql.SparkSqlOperator(*, sql, conf=None, conn_id='spark_sql_default', total_executor_cores=None, executor_cores=None, executor_memory=None, keytab=None, principal=None, master=None, name='default-name', num_executors=None, verbose=True, yarn_queue=None, **kwargs)[原始碼]¶

基類: airflow.models.BaseOperator

執行 Spark SQL 查詢。

另請參閱

有關如何使用此運算元的更多資訊，請參閱指南：SparkSqlOperator

引數:

sql (str) – 要執行的 SQL 查詢。（模板化）
conf (dict[str, Any] | str | None) – 任意 Spark 配置屬性
conn_id (str) – 連線 ID 字串
total_executor_cores (int | None) – （僅限於 Standalone 和 Mesos）所有執行器使用的總核心數（預設值：worker 上所有可用的核心數）
executor_cores (int | None) – （僅限於 Standalone 和 YARN）每個執行器的核心數（預設值：2）
executor_memory (str | None) – 每個執行器的記憶體（例如 1000M, 2G）（預設值：1G）
keytab (str | None) – 包含 keytab 檔案的完整路徑
master (str | None) – spark://host:port, mesos://host:port, yarn 或 local（預設值：連線中設定的 host 和 port，或 "yarn"）
name (str) – 作業名稱
num_executors (int | None) – 啟動的執行器數量
verbose (bool) – 是否將 verbose 標誌傳遞給 spark-sql
yarn_queue (str | None) – 要提交到的 YARN 佇列（預設值：連線中設定的 queue 值，或 "default"）

template_fields: collections.abc.Sequence[str] = ('sql',)[原始碼]¶

template_ext: collections.abc.Sequence[str] = ('.sql', '.hql')[原始碼]¶

template_fields_renderers[原始碼]¶

sql[原始碼]¶

execute(context)[原始碼]¶

呼叫 SparkSqlHook 執行提供的 SQL 查詢。

on_kill()[原始碼]¶

重寫此方法可在任務例項被殺死時清理子程序。

在運算元中使用 threading、subprocess 或 multiprocessing 模組的任何地方都需要進行清理，否則會留下殭屍程序。