airflow.providers.databricks.operators.databricks_workflow¶
類¶
Databricks 工作流執行的元資料。 |
|
一個任務組,接受任務列表並建立 Databricks 工作流。 |
模組內容¶
- class airflow.providers.databricks.operators.databricks_workflow.WorkflowRunMetadata[source]¶
Databricks 工作流執行的元資料。
- 引數:
run_id – Databricks 工作流執行的 ID。
job_id – Databricks 工作流作業的 ID。
conn_id – 用於連線到 Databricks 的連線 ID。
- class airflow.providers.databricks.operators.databricks_workflow.DatabricksWorkflowTaskGroup(databricks_conn_id, existing_clusters=None, extra_job_params=None, jar_params=None, job_clusters=None, max_concurrent_runs=1, notebook_packages=None, notebook_params=None, python_params=None, spark_submit_params=None, **kwargs)[source]¶
基類:
airflow.utils.task_group.TaskGroup一個任務組,接受任務列表並建立 Databricks 工作流。
DatabricksWorkflowTaskGroup 接受任務列表,並根據這些任務生成的元資料建立 Databricks 工作流。要使任務符合此任務組的條件,它必須包含
_convert_to_databricks_workflow_task方法。如果任何任務不包含此方法,則任務組將在解析時引發錯誤。另請參閱
有關如何使用此運算子的更多資訊,請參閱指南:DatabricksWorkflowTaskGroup
- 引數:
databricks_conn_id (str) – 要使用的 Databricks 連線名稱。
extra_job_params (dict[str, Any] | None) – 一個字典,包含將覆蓋預設 Databricks 工作流作業定義的屬性。
jar_params (list[str] | None) – 要傳遞給工作流的 jar 引數列表。這些引數將傳遞給工作流中的所有 jar 任務。
max_concurrent_runs (int) – 此工作流的最大並行執行數。
notebook_packages (list[dict[str, Any]] | None) – 要安裝的 Python 包字典列表。在工作流任務組級別定義的包將安裝到其下的每個 notebook 任務。在 notebook 任務級別定義的包特定於該 notebook 任務。
notebook_params (dict | None) – 要傳遞給工作流的 notebook 引數字典。這些引數將傳遞給工作流中的所有 notebook 任務。
python_params (list | None) – 要傳遞給工作流的 python 引數列表。這些引數將傳遞給工作流中的所有 python 任務。
spark_submit_params (list | None) – 要傳遞給工作流的 spark submit 引數列表。這些引數將傳遞給所有 spark submit 任務。