配置參考

此頁面包含 apache-airflow-providers-openlineage provider 的所有可用 Airflow 配置列表,這些配置可以在 airflow.cfg 檔案中或使用環境變數進行設定。

注意

Provider 中嵌入的配置從 Airflow 2.7.0 版本開始使用。在此之前,配置是在 Airflow 核心包中描述和配置的 - 因此,如果您使用的 Airflow 版本低於 2.7.0,請查閱 Airflow 文件以獲取 Airflow 核心包中可用的配置選項列表。

注意

更多資訊請參閱 設定配置選項

[openlineage]

本節應用 OpenLineage 整合的設定。有關配置及其優先順序的更多資訊可以在使用者指南中找到。

config_path

指定 YAML 配置檔案路徑。這確保了透過 openlineage.yml 檔案傳遞配置的向後相容性。

型別:

字串

預設值:

''

環境變數:

AIRFLOW__OPENLINEAGE__CONFIG_PATH

示例:

full/path/to/openlineage.yml

custom_run_facets

新增於版本 1.10.0。

透過傳遞一個由分號分隔的完整匯入路徑字串來註冊自定義執行 Facet 函式。

型別:

字串

預設值:

''

環境變數:

AIRFLOW__OPENLINEAGE__CUSTOM_RUN_FACETS

示例:

full.path.to.custom_facet_function;full.path.to.another_custom_facet_function

dag_state_change_process_pool_size

新增於版本 1.8.0。

在排程程式程序內以非同步方式處理 DAG 狀態更改所使用的程序數。

型別:

整數

預設值:

1

環境變數:

AIRFLOW__OPENLINEAGE__DAG_STATE_CHANGE_PROCESS_POOL_SIZE

debug_mode

新增於版本 1.11.0。

如果為 true,OpenLineage 事件將包含有助於除錯的資訊 - 可能包含大型欄位,例如所有已安裝的包及其版本。

型別:

布林值

預設值:

False

環境變數:

AIRFLOW__OPENLINEAGE__DEBUG_MODE

disable_source_code

透過將其設定為 true 來停用在 OpenLineage 事件中包含原始碼。預設情況下,除非停用,否則一些 Operator(例如 Python、Bash)將在事件中包含其原始碼。

型別:

布林值

預設值:

False

環境變數:

AIRFLOW__OPENLINEAGE__DISABLE_SOURCE_CODE

disabled

透過將其設定為 true 來停用傳送事件,而無需解除安裝 OpenLineage Provider。

型別:

布林值

預設值:

False

環境變數:

AIRFLOW__OPENLINEAGE__DISABLED

disabled_for_operators

新增於版本 1.1.0。

透過傳遞一個由分號分隔的要停用的 Operator 的完整匯入路徑字串,將一些 Operator 排除在傳送 OpenLineage 事件之外。

型別:

字串

預設值:

''

環境變數:

AIRFLOW__OPENLINEAGE__DISABLED_FOR_OPERATORS

示例:

airflow.providers.standard.operators.bash.BashOperator; airflow.providers.standard.operators.python.PythonOperator

execution_timeout

新增於版本 1.9.0。

OpenLineage 執行元資料提取所需的最大時間(以秒為單位)。請注意,其他配置(有時優先順序更高),例如 [core] task_success_overtime,也可能影響 OpenLineage 的執行時間。

型別:

整數

預設值:

10

環境變數:

AIRFLOW__OPENLINEAGE__EXECUTION_TIMEOUT

extractors

透過傳遞一個由分號分隔的完整匯入路徑字串來註冊自定義 OpenLineage Extractor。

型別:

字串

預設值:

環境變數:

AIRFLOW__OPENLINEAGE__EXTRACTORS

示例:

full.path.to.ExtractorClass;full.path.to.AnotherExtractorClass

include_full_task_info

新增於版本 1.10.0。

如果為 true,OpenLineage 事件將包含完整的任務資訊 - 可能包含大型欄位。

型別:

布林值

預設值:

False

環境變數:

AIRFLOW__OPENLINEAGE__INCLUDE_FULL_TASK_INFO

namespace

設定 lineage 資料所屬的名稱空間,以便在使用多個 OpenLineage producer 時,來自它們的事件能夠邏輯上分離。

型別:

字串

預設值:

環境變數:

AIRFLOW__OPENLINEAGE__NAMESPACE

示例:

my_airflow_instance_1

selective_enable

新增於版本 1.7.0。

如果啟用此設定,OpenLineage 整合將不會收集和傳送元資料,除非您使用 enable_lineage 方法顯式地按 DAGTask 啟用它。

型別:

布林值

預設值:

False

環境變數:

AIRFLOW__OPENLINEAGE__SELECTIVE_ENABLE

spark_inject_parent_job_info

新增於版本 2.0.0。

對於支援的 Operator,自動將 OpenLineage 的父作業(名稱空間、作業名稱、執行 ID)資訊注入到 Spark 應用程式屬性中。

型別:

布林值

預設值:

False

環境變數:

AIRFLOW__OPENLINEAGE__SPARK_INJECT_PARENT_JOB_INFO

spark_inject_transport_info

新增於版本 2.1.0。

對於支援的 Operator,自動將 OpenLineage 的傳輸資訊注入到 Spark 應用程式屬性中。

型別:

布林值

預設值:

False

環境變數:

AIRFLOW__OPENLINEAGE__SPARK_INJECT_TRANSPORT_INFO

transport

將 OpenLineage Client 傳輸配置作為 JSON 字串傳遞,包括傳輸型別和該型別特有的任何附加選項,如OpenLineage 文件中所述。

當前支援的型別有

  • HTTP

  • Kafka

  • Console

  • File

  • Composite

  • Custom

型別:

字串

預設值:

''

環境變數:

AIRFLOW__OPENLINEAGE__TRANSPORT

示例:

{"type": "http", "url": "https://:5000", "endpoint": "api/v1/lineage"}

此條目是否有幫助?