airflow.providers.databricks.operators.databricks_workflow

WorkflowRunMetadata

Databricks 工作流執行的元資料。

DatabricksWorkflowTaskGroup

一個任務組,接受任務列表並建立 Databricks 工作流。

模組內容

class airflow.providers.databricks.operators.databricks_workflow.WorkflowRunMetadata[source]

Databricks 工作流執行的元資料。

引數:
  • run_id – Databricks 工作流執行的 ID。

  • job_id – Databricks 工作流作業的 ID。

  • conn_id – 用於連線到 Databricks 的連線 ID。

conn_id: str[source]
job_id: int[source]
run_id: int[source]
class airflow.providers.databricks.operators.databricks_workflow.DatabricksWorkflowTaskGroup(databricks_conn_id, existing_clusters=None, extra_job_params=None, jar_params=None, job_clusters=None, max_concurrent_runs=1, notebook_packages=None, notebook_params=None, python_params=None, spark_submit_params=None, **kwargs)[source]

基類: airflow.utils.task_group.TaskGroup

一個任務組,接受任務列表並建立 Databricks 工作流。

DatabricksWorkflowTaskGroup 接受任務列表,並根據這些任務生成的元資料建立 Databricks 工作流。要使任務符合此任務組的條件,它必須包含 _convert_to_databricks_workflow_task 方法。如果任何任務不包含此方法,則任務組將在解析時引發錯誤。

另請參閱

有關如何使用此運算子的更多資訊,請參閱指南:DatabricksWorkflowTaskGroup

引數:
  • databricks_conn_id (str) – 要使用的 Databricks 連線名稱。

  • existing_clusters (list[str] | None) – 此工作流要使用的現有叢集列表。

  • extra_job_params (dict[str, Any] | None) – 一個字典,包含將覆蓋預設 Databricks 工作流作業定義的屬性。

  • jar_params (list[str] | None) – 要傳遞給工作流的 jar 引數列表。這些引數將傳遞給工作流中的所有 jar 任務。

  • job_clusters (list[dict] | None) – 此工作流要使用的工作叢集列表。

  • max_concurrent_runs (int) – 此工作流的最大並行執行數。

  • notebook_packages (list[dict[str, Any]] | None) – 要安裝的 Python 包字典列表。在工作流任務組級別定義的包將安裝到其下的每個 notebook 任務。在 notebook 任務級別定義的包特定於該 notebook 任務。

  • notebook_params (dict | None) – 要傳遞給工作流的 notebook 引數字典。這些引數將傳遞給工作流中的所有 notebook 任務。

  • python_params (list | None) – 要傳遞給工作流的 python 引數列表。這些引數將傳遞給工作流中的所有 python 任務。

  • spark_submit_params (list | None) – 要傳遞給工作流的 spark submit 引數列表。這些引數將傳遞給所有 spark submit 任務。

is_databricks = True[source]
databricks_conn_id[source]
existing_clusters = [][source]
extra_job_params[source]
jar_params = [][source]
job_clusters = [][source]
max_concurrent_runs = 1[source]
notebook_packages = [][source]
notebook_params[source]
python_params = [][source]
spark_submit_params = [][source]
__exit__(_type, _value, _tb)[source]

退出上下文管理器並將任務新增到單個 _CreateDatabricksWorkflowOperator

此條目是否有幫助?