配置參考¶
此頁面包含 apache-airflow-providers-openlineage provider 的所有可用 Airflow 配置列表,這些配置可以在 airflow.cfg 檔案中或使用環境變數進行設定。
注意
Provider 中嵌入的配置從 Airflow 2.7.0 版本開始使用。在此之前,配置是在 Airflow 核心包中描述和配置的 - 因此,如果您使用的 Airflow 版本低於 2.7.0,請查閱 Airflow 文件以獲取 Airflow 核心包中可用的配置選項列表。
注意
更多資訊請參閱 設定配置選項。
[openlineage]¶
本節應用 OpenLineage 整合的設定。有關配置及其優先順序的更多資訊可以在使用者指南中找到。
config_path¶
指定 YAML 配置檔案路徑。這確保了透過 openlineage.yml 檔案傳遞配置的向後相容性。
- 型別:
字串
- 預設值:
''- 環境變數:
AIRFLOW__OPENLINEAGE__CONFIG_PATH- 示例:
full/path/to/openlineage.yml
custom_run_facets¶
新增於版本 1.10.0。
透過傳遞一個由分號分隔的完整匯入路徑字串來註冊自定義執行 Facet 函式。
- 型別:
字串
- 預設值:
''- 環境變數:
AIRFLOW__OPENLINEAGE__CUSTOM_RUN_FACETS- 示例:
full.path.to.custom_facet_function;full.path.to.another_custom_facet_function
dag_state_change_process_pool_size¶
新增於版本 1.8.0。
在排程程式程序內以非同步方式處理 DAG 狀態更改所使用的程序數。
- 型別:
整數
- 預設值:
1- 環境變數:
AIRFLOW__OPENLINEAGE__DAG_STATE_CHANGE_PROCESS_POOL_SIZE
debug_mode¶
新增於版本 1.11.0。
如果為 true,OpenLineage 事件將包含有助於除錯的資訊 - 可能包含大型欄位,例如所有已安裝的包及其版本。
- 型別:
布林值
- 預設值:
False- 環境變數:
AIRFLOW__OPENLINEAGE__DEBUG_MODE
disable_source_code¶
透過將其設定為 true 來停用在 OpenLineage 事件中包含原始碼。預設情況下,除非停用,否則一些 Operator(例如 Python、Bash)將在事件中包含其原始碼。
- 型別:
布林值
- 預設值:
False- 環境變數:
AIRFLOW__OPENLINEAGE__DISABLE_SOURCE_CODE
disabled¶
透過將其設定為 true 來停用傳送事件,而無需解除安裝 OpenLineage Provider。
- 型別:
布林值
- 預設值:
False- 環境變數:
AIRFLOW__OPENLINEAGE__DISABLED
disabled_for_operators¶
新增於版本 1.1.0。
透過傳遞一個由分號分隔的要停用的 Operator 的完整匯入路徑字串,將一些 Operator 排除在傳送 OpenLineage 事件之外。
- 型別:
字串
- 預設值:
''- 環境變數:
AIRFLOW__OPENLINEAGE__DISABLED_FOR_OPERATORS- 示例:
airflow.providers.standard.operators.bash.BashOperator; airflow.providers.standard.operators.python.PythonOperator
execution_timeout¶
新增於版本 1.9.0。
OpenLineage 執行元資料提取所需的最大時間(以秒為單位)。請注意,其他配置(有時優先順序更高),例如 [core] task_success_overtime,也可能影響 OpenLineage 的執行時間。
- 型別:
整數
- 預設值:
10- 環境變數:
AIRFLOW__OPENLINEAGE__EXECUTION_TIMEOUT
extractors¶
透過傳遞一個由分號分隔的完整匯入路徑字串來註冊自定義 OpenLineage Extractor。
- 型別:
字串
- 預設值:
無- 環境變數:
AIRFLOW__OPENLINEAGE__EXTRACTORS- 示例:
full.path.to.ExtractorClass;full.path.to.AnotherExtractorClass
include_full_task_info¶
新增於版本 1.10.0。
如果為 true,OpenLineage 事件將包含完整的任務資訊 - 可能包含大型欄位。
- 型別:
布林值
- 預設值:
False- 環境變數:
AIRFLOW__OPENLINEAGE__INCLUDE_FULL_TASK_INFO
namespace¶
設定 lineage 資料所屬的名稱空間,以便在使用多個 OpenLineage producer 時,來自它們的事件能夠邏輯上分離。
- 型別:
字串
- 預設值:
無- 環境變數:
AIRFLOW__OPENLINEAGE__NAMESPACE- 示例:
my_airflow_instance_1
selective_enable¶
新增於版本 1.7.0。
如果啟用此設定,OpenLineage 整合將不會收集和傳送元資料,除非您使用 enable_lineage 方法顯式地按 DAG 或 Task 啟用它。
- 型別:
布林值
- 預設值:
False- 環境變數:
AIRFLOW__OPENLINEAGE__SELECTIVE_ENABLE
spark_inject_parent_job_info¶
新增於版本 2.0.0。
對於支援的 Operator,自動將 OpenLineage 的父作業(名稱空間、作業名稱、執行 ID)資訊注入到 Spark 應用程式屬性中。
- 型別:
布林值
- 預設值:
False- 環境變數:
AIRFLOW__OPENLINEAGE__SPARK_INJECT_PARENT_JOB_INFO
spark_inject_transport_info¶
新增於版本 2.1.0。
對於支援的 Operator,自動將 OpenLineage 的傳輸資訊注入到 Spark 應用程式屬性中。
- 型別:
布林值
- 預設值:
False- 環境變數:
AIRFLOW__OPENLINEAGE__SPARK_INJECT_TRANSPORT_INFO
transport¶
將 OpenLineage Client 傳輸配置作為 JSON 字串傳遞,包括傳輸型別和該型別特有的任何附加選項,如OpenLineage 文件中所述。
當前支援的型別有
HTTP
Kafka
Console
File
Composite
Custom
- 型別:
字串
- 預設值:
''- 環境變數:
AIRFLOW__OPENLINEAGE__TRANSPORT- 示例:
{"type": "http", "url": "https://:5000", "endpoint": "api/v1/lineage"}