支援的類¶
下面列出了支援 OpenLineage 提取的 Operators 和 Hooks,以及與 SQLExecuteQueryOperator 相容的特定資料庫型別。
重要
雖然我們努力保持支援的類列表最新,但請注意,我們的更新過程是自動化的,可能並非總是準確地捕獲所有內容。檢測 Hook 級別的 lineage 具有挑戰性,因此請務必仔細檢查下面提供的資訊。
提示
您可以輕鬆地為任何 Operator 實現 OpenLineage 支援。參見在 Operators 中實現 OpenLineage。
核心 Operators¶
目前,有兩個核心 Operator 支援 OpenLineage。這些 Operator 功能類似於“黑箱”,能夠執行任何程式碼,這可能會限制 lineage 提取的範圍。為了增強 lineage 資訊的提取,Operator 可以利用下面列出的支援 OpenLineage 的 Hooks。
Spark Operators¶
OpenLineage 整合可以在 Spark 應用從 Airflow 提交時,自動將資訊注入到其 Spark 應用屬性中。下面是支援的 Operators 列表以及可以注入的相應資訊。有關更多詳細資訊,請參閱父作業資訊的自動注入。
apache-airflow-providers-apache-livy¶
LivyOperator父作業資訊
傳輸資訊(目前僅支援 HTTP 傳輸(如果存在 api_key 認證))
apache-airflow-providers-apache-spark¶
SparkSubmitOperator父作業資訊
傳輸資訊(目前僅支援 HTTP 傳輸(如果存在 api_key 認證))
apache-airflow-providers-google¶
DataprocCreateBatchOperator父作業資訊
傳輸資訊(目前僅支援 HTTP 傳輸(如果存在 api_key 認證))
DataprocInstantiateInlineWorkflowTemplateOperator父作業資訊
傳輸資訊(目前僅支援 HTTP 傳輸(如果存在 api_key 認證))
DataprocSubmitJobOperator父作業資訊
傳輸資訊(目前僅支援 HTTP 傳輸(如果存在 api_key 認證))
SQLExecuteQueryOperator¶
使用 SQL 解析進行 lineage 提取。要從每種資料庫型別中提取獨特資料,需要一個實現 OpenLineage 方法的專用 Hook。目前支援以下資料庫:
MsSql (透過
MsSqlHook)MySql (透過
MySqlHook)PgVector (透過
PgVectorHook)Postgres (透過
PostgresHook)RedshiftSQL (透過
RedshiftSQLHook)Snowflake (透過
SnowflakeHook)Trino (透過
TrinoHook)
Providers¶
下面列出的來自各個 provider 的 Operators 和 Hooks 原生支援 OpenLineage。