airflow.providers.apache.spark.operators.spark_sql

SparkSqlOperator

執行 Spark SQL 查詢。

模組內容

airflow.providers.apache.spark.operators.spark_sql.SparkSqlOperator(*, sql, conf=None, conn_id='spark_sql_default', total_executor_cores=None, executor_cores=None, executor_memory=None, keytab=None, principal=None, master=None, name='default-name', num_executors=None, verbose=True, yarn_queue=None, **kwargs)[原始碼]

基類: airflow.models.BaseOperator

執行 Spark SQL 查詢。

另請參閱

有關如何使用此運算元的更多資訊,請參閱指南:SparkSqlOperator

引數:
  • sql (str) – 要執行的 SQL 查詢。(模板化)

  • conf (dict[str, Any] | str | None) – 任意 Spark 配置屬性

  • conn_id (str) – 連線 ID 字串

  • total_executor_cores (int | None) – (僅限於 Standalone 和 Mesos)所有執行器使用的總核心數(預設值:worker 上所有可用的核心數)

  • executor_cores (int | None) – (僅限於 Standalone 和 YARN)每個執行器的核心數(預設值:2)

  • executor_memory (str | None) – 每個執行器的記憶體(例如 1000M, 2G)(預設值:1G)

  • keytab (str | None) – 包含 keytab 檔案的完整路徑

  • master (str | None) – spark://host:port, mesos://host:port, yarn 或 local(預設值:連線中設定的 hostport,或 "yarn"

  • name (str) – 作業名稱

  • num_executors (int | None) – 啟動的執行器數量

  • verbose (bool) – 是否將 verbose 標誌傳遞給 spark-sql

  • yarn_queue (str | None) – 要提交到的 YARN 佇列(預設值:連線中設定的 queue 值,或 "default"

template_fields: collections.abc.Sequence[str] = ('sql',)[原始碼]
template_ext: collections.abc.Sequence[str] = ('.sql', '.hql')[原始碼]
template_fields_renderers[原始碼]
sql[原始碼]
execute(context)[原始碼]

呼叫 SparkSqlHook 執行提供的 SQL 查詢。

on_kill()[原始碼]

重寫此方法可在任務例項被殺死時清理子程序。

在運算元中使用 threading、subprocess 或 multiprocessing 模組的任何地方都需要進行清理,否則會留下殭屍程序。

此條目有用嗎?