apache-airflow-providers-apache-spark
更新日誌¶
5.2.1¶
雜項¶
移除 多餘的 else 塊 (#49199)
5.2.0¶
新特性¶
為 Spark 提供者 新增 openlineage 作為 額外依賴 (#48972)
雜項¶
使 '@task' 從 airflow.sdk 匯入 (#48896)
5.1.1¶
新特性¶
將 OpenLineage 配置注入 新增到 SparkSubmitOperator (#47508)
5.0.1¶
Bug 修復¶
spark on kubernetes 移除對 Spark 退出碼的依賴 (#46817)
雜項¶
將 flit 升級到 3.11.0 (#46938)
僅文件¶
在 spark-submit hook 和 operator 的 docstring 中包含驅動類路徑到 --jars 命令 (#45210)
5.0.0¶
注意
此提供者版本僅適用於 Airflow 2.9+,具體說明請參閱 Apache Airflow 提供者支援策略。
重大變更¶
警告
所有已棄用的類、引數和特性已從 Apache Spark 提供者包中移除。引入了以下重大變更
操作器
移除 SparkSqlOperator 的
_sql()支援。請改用sql屬性。_sql於 2016 年引入,由於它曾被列為模板化欄位(現在不再是),儘管帶有表示私有的_字首,我們仍將其視為公共 API 進行處理。
從 apache spark provider 中移除已棄用程式碼 (#44567)
雜項¶
將提供者的最低 Airflow 版本提升到 Airflow 2.9.0 (#44956)修復 'main' 分支上 mypy 檢查失敗的問題 (#44191)spark-submit: 將 'principle' 替換為 'principal' (#44150)更新多個提供者文件中的 DAG 示例連結 (#44034)
4.11.3¶
雜項¶
將 python operator 移至 Standard 提供者 (#42081)
4.11.2¶
Bug 修復¶
在 SparkSqlOperator 中將 conf 屬性從 str 型別更改為 dict 型別 (#42835)
4.11.1¶
雜項¶
重構函式 resolve_kerberos_principal (#42777)
4.11.0¶
新特性¶
在 SparkSubmitHook 上新增 kerberos 相關連線欄位(principal, keytab) (#40757)
4.10.0¶
注意
此提供者版本僅適用於 Airflow 2.8+,具體說明請參閱 Apache Airflow 提供者支援策略。
雜項¶
將提供者的最低 Airflow 版本提升到 Airflow 2.8.0 (#41396)解決 'SparkSqlOperator' 中的 'AirflowProviderDeprecationWarning' (#41358)
4.9.0¶
新特性¶
向 'SparkSubmitHook' 新增 'kubernetes_application_id' (#40753)
Bug 修復¶
(修復): spark submit pod 名稱包含 driver 作為其名稱的一部分 (#40732)
4.8.2¶
雜項¶
使用最低直接依賴解析實現每個提供者的測試 (#39946)
4.8.1¶
雜項¶
更快的 'airflow_version' 匯入 (#39552)簡化 'airflow_version' 匯入 (#39497)
4.8.0¶
注意
此提供者版本僅適用於 Airflow 2.7+,具體說明請參閱 Apache Airflow 提供者支援策略。
Bug 修復¶
將 SparkSubmitOperator 引數 queue 重新命名為 yarn_queue (#38852)
雜項¶
將提供者的最低 Airflow 版本提升到 Airflow 2.7.0 (#39240)
4.7.2¶
雜項¶
重新命名 'SparkSubmitOperator' 欄位名稱以符合模板化欄位驗證 (#38051)重新命名 'SparkSqlOperator' 欄位名稱以符合模板化欄位驗證 (#38045)
4.7.1¶
雜項¶
提升 spark provider 中 grpcio-status 的最低版本 (#36662)
4.7.0¶
更改 spark 連線表單並新增 spark 連線文件 (#36419)
4.6.0¶
新特性¶
SparkSubmit: 新增 propertyfiles 選項 (#36164)SparkSubmit 連線的 Extras 可以被覆蓋 (#36151)
Bug 修復¶
子類遵循 BaseHook 連線欄位方法的簽名 (#36086)
4.5.0¶
注意
此提供者版本僅適用於 Airflow 2.6+,具體說明請參閱 Apache Airflow 提供者支援策略。
雜項¶
將提供者的最低 Airflow 版本提升到 Airflow 2.6.0 (#36017)
4.4.0¶
新特性¶
新增 pyspark 裝飾器 (#35247)向 SparkSubmitOperator 新增 use_krb5ccache 選項 (#35331)
4.3.0¶
新特性¶
向 'SparkSubmitHook' 新增 'use_krb5ccache' 選項 (#34386)
4.2.0¶
注意
此提供者版本僅適用於 Airflow 2.5+,具體說明請參閱 Apache Airflow 提供者支援策略。
雜項¶
提升提供者的最低 Airflow 版本 (#34728)
4.1.5¶
雜項¶
重構提供者中的正則表示式 (#33898)
4.1.4¶
雜項¶
重構: 簡化 Apache/Alibaba 提供者中的程式碼 (#33227)
4.1.3¶
Bug 修復¶
驗證 Spark JDBC hook 的 extra 欄位中的 conn_prefix (#32946)
4.1.2¶
注意
該提供者現在要求安裝 7.4.0+ 版本的 apache-airflow-providers-cncf-kubernetes,以便執行 Spark on Kubernetes 作業。您可以透過 pip install apache-airflow-providers-spark[cncf.kubernetes] 命令安裝帶有 cncf.kubernetes extra 的提供者,以獲取正確版本的 cncf.kubernetes 提供者。
雜項¶
將所有 k8S 類移至 cncf.kubernetes 提供者 (#32767)
4.1.1¶
注意
此版本放棄了對 Python 3.7 的支援
雜項¶
SparkSubmitOperator: 將 spark_conn_id 重新命名為 conn_id (#31952)
4.1.0¶
注意
此提供者版本僅適用於 Airflow 2.4+,具體說明請參閱 Apache Airflow 提供者支援策略。
雜項¶
提升提供者的最低 Airflow 版本 (#30917)
4.0.1¶
Bug 修復¶
僅限制透過 extra 傳遞的 spark binary (#30213)驗證 Spark JDBC Hook 的主機和 schema (#30223)將 spark3-submit 新增到允許的 spark-binary 值列表 (#30068)
4.0.0¶
注意
此提供者版本僅適用於 Airflow 2.3+,具體說明請參閱 Apache Airflow 提供者支援策略。
重大變更¶
spark-binary 連線 extra 可以設定為任何 binary,但 4.0.0 版本只允許兩個值: spark-submit 和 spark2-submit。
不再允許使用 spark-home 連線 extra - binary 必須在 PATH 中可用才能使用 SparkSubmitHook 和 SparkSubmitOperator。
移除自定義 spark home 和 spark 的自定義 binaries (#27646)
雜項¶
將所有提供者的最低 Airflow 版本移至 2.3.0 (#27196)
3.0.0¶
重大變更¶
注意
此提供者版本僅適用於 Airflow 2.2+,具體說明請參閱 Apache Airflow 提供者支援策略。
Bug 修復¶
為 airflow/configuration.py 新增型別提示 (#23716)修復透過解決 mypy 問題引入的向後相容性問題 (#24230)
雜項¶
AIP-47 - 將 spark DAGs 遷移到新設計 #22439 (#24210)chore: 重構和清理 Apache 提供者 (#24219)
2.1.3¶
Bug 修復¶
修復為所有提供者錯誤新增 install_requires 的問題 (#22382)
2.1.2¶
雜項¶
在 PyPI 中新增 Trove 分類器 (Framework :: Apache Airflow :: Provider)
2.1.1¶
Bug 修復¶
修復 SparkSubmitHook 文件中的引數渲染問題 (#21788)
雜項¶
支援 Python 3.10
2.1.0¶
新特性¶
新增更多 SQL 模板欄位渲染器 (#21237)在提供者中新增可選特性。 (#21074)
2.0.3¶
Bug 修復¶
確保 Spark driver 響應有效後再設定 UNKNOWN 狀態 (#19978)
2.0.2¶
Bug 修復¶
修復 SparkSql Operator 日誌陷入無限迴圈的 bug。 (#19449)
2.0.1¶
雜項¶
最佳化 Airflow 2.2.0 的連線匯入
2.0.0¶
重大變更¶
自動應用 apply_default 裝飾器 (#15667)
警告
由於移除了 apply_default 裝飾器,此提供者版本要求 Airflow 2.1.0+。如果您的 Airflow 版本低於 2.1.0,並且您想安裝此提供者版本,請先將 Airflow 升級到至少 2.1.0。否則,您的 Airflow 包版本將自動升級,並且您必須手動執行 airflow upgrade db 來完成遷移。
Bug 修復¶
使 SparkSqlHook 使用 Connection (#15794)
1.0.3¶
Bug 修復¶
修復 'logging.exception' 的冗餘問題 (#14823)
1.0.2¶
Bug 修復¶
使用不帶 kubernetes 的 apache.spark 提供者 (#14187)
1.0.1¶
更新了文件和 readme 檔案。
1.0.0¶
提供者的初始版本。