apache-airflow-providers-apache-spark

更新日誌

5.2.1

雜項

  • 移除 多餘的 else (#49199)

5.2.0

新特性

  • Spark 提供者 新增 openlineage 作為 額外依賴 (#48972)

雜項

  • 使 '@task' airflow.sdk 匯入 (#48896)

5.1.1

新特性

  • OpenLineage 配置注入 新增到 SparkSubmitOperator (#47508)

5.0.1

Bug 修復

  • spark on kubernetes 移除對 Spark 退出碼的依賴 (#46817)

雜項

  • flit 升級到 3.11.0 (#46938)

僅文件

  • spark-submit hook operator docstring 中包含驅動類路徑到 --jars 命令 (#45210)

5.0.0

注意

此提供者版本僅適用於 Airflow 2.9+,具體說明請參閱 Apache Airflow 提供者支援策略

重大變更

警告

所有已棄用的類、引數和特性已從 Apache Spark 提供者包中移除。引入了以下重大變更

  • 操作器

    • 移除 SparkSqlOperator 的 _sql() 支援。請改用 sql 屬性。_sql 於 2016 年引入,由於它曾被列為模板化欄位(現在不再是),儘管帶有表示私有的 _ 字首,我們仍將其視為公共 API 進行處理。

  • apache spark provider 中移除已棄用程式碼 (#44567)

雜項

  • 將提供者的最低 Airflow 版本提升到 Airflow 2.9.0 (#44956)

  • 修復 'main' 分支上 mypy 檢查失敗的問題 (#44191)

  • spark-submit: 'principle' 替換為 'principal' (#44150)

  • 更新多個提供者文件中的 DAG 示例連結 (#44034)

4.11.3

雜項

  • python operator 移至 Standard 提供者 (#42081)

4.11.2

Bug 修復

  • SparkSqlOperator 中將 conf 屬性從 str 型別更改為 dict 型別 (#42835)

4.11.1

雜項

  • 重構函式 resolve_kerberos_principal (#42777)

4.11.0

新特性

  • SparkSubmitHook 上新增 kerberos 相關連線欄位(principal, keytab) (#40757)

4.10.0

注意

此提供者版本僅適用於 Airflow 2.8+,具體說明請參閱 Apache Airflow 提供者支援策略

雜項

  • 將提供者的最低 Airflow 版本提升到 Airflow 2.8.0 (#41396)

  • 解決 'SparkSqlOperator' 中的 'AirflowProviderDeprecationWarning' (#41358)

4.9.0

新特性

  • 'SparkSubmitHook' 新增 'kubernetes_application_id' (#40753)

Bug 修復

  • (修復): spark submit pod 名稱包含 driver 作為其名稱的一部分 (#40732)

4.8.2

雜項

  • 使用最低直接依賴解析實現每個提供者的測試 (#39946)

4.8.1

雜項

  • 更快的 'airflow_version' 匯入 (#39552)

  • 簡化 'airflow_version' 匯入 (#39497)

4.8.0

注意

此提供者版本僅適用於 Airflow 2.7+,具體說明請參閱 Apache Airflow 提供者支援策略

Bug 修復

  • SparkSubmitOperator 引數 queue 重新命名為 yarn_queue (#38852)

雜項

  • 將提供者的最低 Airflow 版本提升到 Airflow 2.7.0 (#39240)

4.7.2

雜項

  • 重新命名 'SparkSubmitOperator' 欄位名稱以符合模板化欄位驗證 (#38051)

  • 重新命名 'SparkSqlOperator' 欄位名稱以符合模板化欄位驗證 (#38045)

4.7.1

雜項

  • 提升 spark provider grpcio-status 的最低版本 (#36662)

4.7.0

  • 更改 spark 連線表單並新增 spark 連線文件 (#36419)

4.6.0

新特性

  • SparkSubmit: 新增 propertyfiles 選項 (#36164)

  • SparkSubmit 連線的 Extras 可以被覆蓋 (#36151)

Bug 修復

  • 子類遵循 BaseHook 連線欄位方法的簽名 (#36086)

4.5.0

注意

此提供者版本僅適用於 Airflow 2.6+,具體說明請參閱 Apache Airflow 提供者支援策略

雜項

  • 將提供者的最低 Airflow 版本提升到 Airflow 2.6.0 (#36017)

4.4.0

新特性

  • 新增 pyspark 裝飾器 (#35247)

  • SparkSubmitOperator 新增 use_krb5ccache 選項 (#35331)

4.3.0

新特性

  • 'SparkSubmitHook' 新增 'use_krb5ccache' 選項 (#34386)

4.2.0

注意

此提供者版本僅適用於 Airflow 2.5+,具體說明請參閱 Apache Airflow 提供者支援策略

雜項

  • 提升提供者的最低 Airflow 版本 (#34728)

4.1.5

雜項

  • 重構提供者中的正則表示式 (#33898)

4.1.4

雜項

  • 重構: 簡化 Apache/Alibaba 提供者中的程式碼 (#33227)

4.1.3

Bug 修復

  • 驗證 Spark JDBC hook extra 欄位中的 conn_prefix (#32946)

4.1.2

注意

該提供者現在要求安裝 7.4.0+ 版本的 apache-airflow-providers-cncf-kubernetes,以便執行 Spark on Kubernetes 作業。您可以透過 pip install apache-airflow-providers-spark[cncf.kubernetes] 命令安裝帶有 cncf.kubernetes extra 的提供者,以獲取正確版本的 cncf.kubernetes 提供者。

雜項

  • 將所有 k8S 類移至 cncf.kubernetes 提供者 (#32767)

4.1.1

注意

此版本放棄了對 Python 3.7 的支援

雜項

  • SparkSubmitOperator: spark_conn_id 重新命名為 conn_id (#31952)

4.1.0

注意

此提供者版本僅適用於 Airflow 2.4+,具體說明請參閱 Apache Airflow 提供者支援策略

雜項

  • 提升提供者的最低 Airflow 版本 (#30917)

4.0.1

Bug 修復

  • 僅限制透過 extra 傳遞的 spark binary (#30213)

  • 驗證 Spark JDBC Hook 的主機和 schema (#30223)

  • spark3-submit 新增到允許的 spark-binary 值列表 (#30068)

4.0.0

注意

此提供者版本僅適用於 Airflow 2.3+,具體說明請參閱 Apache Airflow 提供者支援策略

重大變更

spark-binary 連線 extra 可以設定為任何 binary,但 4.0.0 版本只允許兩個值: spark-submitspark2-submit

不再允許使用 spark-home 連線 extra - binary 必須在 PATH 中可用才能使用 SparkSubmitHook 和 SparkSubmitOperator。

  • 移除自定義 spark home spark 的自定義 binaries (#27646)

雜項

  • 將所有提供者的最低 Airflow 版本移至 2.3.0 (#27196)

3.0.0

重大變更

注意

此提供者版本僅適用於 Airflow 2.2+,具體說明請參閱 Apache Airflow 提供者支援策略

Bug 修復

  • airflow/configuration.py 新增型別提示 (#23716)

  • 修復透過解決 mypy 問題引入的向後相容性問題 (#24230)

雜項

  • AIP-47 - spark DAGs 遷移到新設計 #22439 (#24210)

  • chore: 重構和清理 Apache 提供者 (#24219)

2.1.3

Bug 修復

  • 修復為所有提供者錯誤新增 install_requires 的問題 (#22382)

2.1.2

雜項

  • PyPI 中新增 Trove 分類器 (Framework :: Apache Airflow :: Provider)

2.1.1

Bug 修復

  • 修復 SparkSubmitHook 文件中的引數渲染問題 (#21788)

雜項

  • 支援 Python 3.10

2.1.0

新特性

  • 新增更多 SQL 模板欄位渲染器 (#21237)

  • 在提供者中新增可選特性。 (#21074)

2.0.3

Bug 修復

  • 確保 Spark driver 響應有效後再設定 UNKNOWN 狀態 (#19978)

2.0.2

Bug 修復

  • 修復 SparkSql Operator 日誌陷入無限迴圈的 bug。 (#19449)

2.0.1

雜項

  • 最佳化 Airflow 2.2.0 的連線匯入

2.0.0

重大變更

  • 自動應用 apply_default 裝飾器 (#15667)

警告

由於移除了 apply_default 裝飾器,此提供者版本要求 Airflow 2.1.0+。如果您的 Airflow 版本低於 2.1.0,並且您想安裝此提供者版本,請先將 Airflow 升級到至少 2.1.0。否則,您的 Airflow 包版本將自動升級,並且您必須手動執行 airflow upgrade db 來完成遷移。

Bug 修復

  • 使 SparkSqlHook 使用 Connection (#15794)

1.0.3

Bug 修復

  • 修復 'logging.exception' 的冗餘問題 (#14823)

1.0.2

Bug 修復

  • 使用不帶 kubernetes apache.spark 提供者 (#14187)

1.0.1

更新了文件和 readme 檔案。

1.0.0

提供者的初始版本。

此條目有幫助嗎?