生態系統

這些資源和服務並非由 Apache Airflow® 社群和 Apache Airflow 專案(由 Committers 和 Airflow PMC 維護)維護或認可。請自行決定是否使用。社群不對這些工具的許可或有效性進行驗證,因此您有責任對其進行驗證。

如果您想包含在此頁面上,請透過Apache Airflow 開發或使用者郵件列表與我們聯絡並告知我們,或者直接為此頁面開啟一個 Pull Request。

 

學習資源

Apache Airflow YouTube 頻道 - 官方 YouTube 頻道

Airflow Summit - 適用於 Apache Airflow 開發者的會議

Awesome Apache Airflow - 精選的 Apache Airflow 相關資源列表

Astronomer Academy - Astronomer 教育團隊提供的完整課程和認證

Apache Airflow 全面實踐入門課程 作者 Marc Lamberti (Udemy)

Apache Airflow:完整的實踐入門到高階課程 作者 Alexandra Abbas (Udemy)

Apache Airflow 資料管道第二版 Apache Airflow 書籍 (Amazon)

 

Airflow 即服務

Astro - 由 Astronomer 提供,Astro 是現代資料編排平臺,由 Apache Airflow 驅動。Astro 使資料工程師、資料科學家和資料分析師能夠構建、執行和觀察程式碼形式的管道。

Google Cloud Composer - Google Cloud Platform 上的託管 Apache Airflow 服務

Amazon Managed Workflows for Apache Airflow - Amazon Web Services (AWS) 上的託管 Apache Airflow

Azure Data Factory Managed Airflow - Azure 上的託管 Apache Airflow 服務

Yandex Managed Service for Apache Airflow - Yandex Cloud 上的託管 Apache Airflow

Airflow with Restack - Restack Cloud 上的託管 Apache Airflow,或自帶雲:AWS EKS、GCP GKE 或 Azure AKS。允許您使用最新版本的 Airflow 和您自己的 DAG。將您的倉庫連線到 Restack GitHub 應用以獲得內建的 CI/CD。

DoubleCloud Managed Service for Apache Airflow - DoubleCloud 平臺上的託管 Apache Airflow。

 

其他部署方法

Airflow Heroku Deployment - Airflow Heroku Deployment 允許只需點選幾下即可建立演示 Airflow 例項。

透過 CNDI 自行託管 Airflow - 用於部署 Airflow Kubernetes 叢集的工具包,支援 AWS、GCP、Azure、VMWare、裸金屬,甚至多雲/混合雲支援。更多詳細資訊請參閱文件

在 Amazon EKS 上自行託管 Airflow - 在 Amazon EKS 上自行託管 Airflow 提供了使用 Data on EKS Blueprints 和 Terraform Data add-ons 模組透過 TerraformAmazon EKS 上部署自行託管 Apache Airflow 的指南,請檢視 Data on EKS Airflow 藍圖

Amazon MWAA Terraform 模組允許您使用官方 Terraform 模組部署 Amazon Managed Workflows for Apache Airflow。有關如何使用 Amazon MWAA 的完整示例,請檢視 Data on EKS MWAA 藍圖

 

第三方 Airflow 外掛和 Provider

Astronomer Registry - Apache Airflow 整合的發現和分發中心,旨在彙總和整理生態系統中最優秀的部分。

Airflow Plugins - Airflow 各種外掛的中央倉庫集合,包括 mailchimp、trello、sftp、GitHub 等。

Airflow ECR Plugin - 定期重新整理 AWS ECR 登入令牌的外掛。當 DockerOperator 需要拉取託管在 ECR 上的映象時,此外掛很有用。

Airflow OpenMLDB Provider - 包含用於在 OpenMLDB 上進行特徵提取的 Operator 的 Airflow OpenMLDB Provider。

Airflow Apache Mesos Provider - 包含用於使用 Apache Mesos 進行橫向擴充套件的 Scheduler 的 Airflow Apache Mesos Provider。

Airflow Netezza Provider - 使用 nzpy 連線到 Netezza 的 Airflow Provider

Airflow Grafana Loki Provider - 提供與 Grafana Loki 整合的 Hook 和 LogHandler。此 Provider 提供了一個用於向 Grafana Loki 寫入和從中讀取 Task 日誌的 LogHandler。

Airflow SAS Provider - 提供用於建立 Airflow 任務以執行 SAS Studio Flows 和 Jobs 的 Hook 和 Operator。

Airflow Cloudera Provider - 提供 Hook 和 Operator 以便與 Cloudera Data Platform Services 進行互動並執行您的工作負載

Airflow Alembic Provider - 提供 Hook 和 Operator 以便使用 Alembic 執行資料庫遷移

Airflow Pulumi Provider - 提供 Hook 和 Operator 以便使用 Pulumi 管理基礎設施即程式碼

Airflow DolphinDB Provider - 提供 Hook 和 Operator 以便使用 DolphinDB 執行指令碼。

Airflow TM1 Provider - 提供 Hook 和 Operator 以便透過 REST API 簡化連線到 IBM Cognos TM1 / Planning Analytics 資料庫。

Astronomer Cosmos - 只需幾行程式碼即可將您的 dbt Core 專案作為 Apache Airflow DAG 和 Task Groups 執行。

Airflow OpenTelemetry Provider - 提供 Hook 和 EventListener,它們將為您的 DAG 執行在 OpenTelemetry 中生成 trace、metric 和日誌。

Airflow Couchbase Provider - 提供 Hook 以便與 Couchbase 資料庫無縫互動、執行查詢、管理文件等。

Airflow SAP HANA Provider - 提供 Hook 以便與 SAP HANA 互動。允許使用 Airflow SQL Operator 和資料庫 Hook 方法,包括與 sqlalchemy 互動的方法。

 

非同步 Provider

Astronomer Providers - 由 Astronomer 構建和維護的 Apache Airflow 非同步 Operator 和 Sensor 的集合。

Airflow Kafka Provider - 包含可延遲 Operator 和 Sensor 的 Apache Airflow Kafka provider。

 

第三方 Airflow Helm Charts

Apache Airflow 自 2021 年初發布了 官方 Apache Airflow 社群 Chart,但歷史上也存在其他一些流行的 Chart

使用者社群 Chart - 使用者社群管理的 Chart,自 2018 年起存在,之前在官方(現已廢棄)Helm Charts 倉庫中稱為 stable/airflow

Bitnami Chart - Bitnami 管理著許多 Chart,Airflow Chart 是其中之一

Astronomer Chart - 由 Astronomer Chart 管理的 Chart。這是官方 Airflow 社群 Chart 所基於的原始 Chart(由 Astronomer 捐贈)

 

與 Airflow 整合的工具

ADA - 一個用於從 Airflow 資料庫例項中檢索分析指標的微服務。

as-scraper - 與 Selenium 整合,用於在 Airflow 中構建和維護 Web 爬蟲。

afctl - 一個 CLI 工具,包含建立、管理和部署 Airflow 專案所需的一切,更快更順暢。

airflint - 對所有 Airflow DAG 強制執行最佳實踐。

airflow-aws-executors - 直接在 AWS Batch、AWS Fargate 或 AWS ECS 上執行 Airflow 任務;更少的基礎設施意味著更多。

airflow-code-editor - 一個用於 Apache Airflow 的工具,允許您在瀏覽器中編輯 DAG。

airflow-diagrams - 從 Airflow DAG 自動生成的圖表

airflow-maintenance-dags - Clairvoyant 有一個 Airflow DAG 倉庫,這些 DAG 對 Airflow 本身進行操作,清理底層元資料儲存中的各種資料。

airflow-parse-bench - 一個 Python 工具 (CLI),用於在本地機器上測量和比較您的 DAG 的解析時間。

AirflowK8sDebugger - 一個庫,用於使用 KubernetesPodOperator 從 Airflow dag 生成 k8s pod yaml 模板。

Airflow Ditto - 一個可擴充套件的框架,用於對 Airflow DAG 進行轉換,並將其轉換為與原始 DAG 流同構的另一個 DAG,以便能夠在不同的環境(例如不同的雲,甚至不同的容器框架 - Apache Spark on YARN vs Kubernetes)上執行。內建支援 EMR-to-HDInsight-DAG 轉換。

Amundsen - Amundsen 是一個數據發現和元資料平臺,用於提高資料分析師、資料科學家和工程師與資料互動時的生產力。它可以顯示哪個 Airflow 任務生成了給定的表。

Apache-Liminal-Incubating - Liminal 提供了一個領域特定語言 (DSL),用於在 Apache Airflow 之上構建 ML/AI 工作流程。其目標是使機器學習過程可操作化,允許資料科學家快速從成功的實驗過渡到模型訓練、驗證、部署和生產推理的自動化管道。

Astro CLI - Astro CLI 是獲取本地 Airflow 伺服器進行原型開發和開發的最簡單方法。

Astro SDK - Astro SDK 允許使用 Python 和 SQL 快速乾淨地開發 Extract、Load、Transform 工作流程,由 Apache Airflow 驅動並由 Astronomer 維護。

Chartis - 將通用工作流語言 (CWL) 轉換為 Airflow DAG 的 Python 包。

CWL-Airflow - 擴充套件 Apache-Airflow 1.10.11 功能並支援 CWL v1.2 的 Python 包。

DAGify - 一個 Python 工具,用於將 Control-M 工作流程轉換為 Airflow DAG。

dag-factory - 一個庫,用於從 YAML 配置檔案動態生成 Apache Airflow DAG。

Dag Dependencies viewer - 一個工具,用於建立檢視以視覺化 Airflow DAG 之間的依賴關係

data-dag - 一個庫,用於構建工廠以從資料(如 YAML 檔案)動態生成 DAG

Databand - 構建在 Airflow 之上的可觀察性平臺。

DataHub - 適用於現代資料棧的元資料平臺。它可以自動從 Airflow 收集血緣關係和其他元資料

dbt (資料構建工具) - 資料轉換工具,dbt 作業可以使用 Airflow 進行排程

Domino - Domino 是一個開源圖形使用者介面平臺,透過無程式碼、直觀的視覺化拖放操作建立資料和機器學習工作流程 (DAG)。它也是釋出和共享您的 Python 程式碼的標準,以便任何人都可以直接在 GUI 中自動使用它。

Elyra - Elyra 提供了一個視覺化編輯器,使資料科學家能夠以低程式碼/無程式碼的方式建立 AI 管道。

GeniumCloud - 透過全新的 UI 快速構建、排程和控制 Airflow 工作流程的一站式平臺。開箱即用的全面 Airflow 基礎設施監控,與警報系統整合,服務適用於小型到大型企業組織。管理複雜工作流程的最簡單方法。

gusty - 使用任意數量的 YAML、Python、Jupyter Notebook 或 R Markdown 檔案建立一個 DAG,這些檔案代表 DAG 中的單個任務。gusty 還配置依賴關係、DAG 和 TaskGroups,支援您的本地 Operator 等等。完全容器化的演示可在此處獲取。

Marquez - Marquez 是一個開源元資料服務,維護資料出處,顯示資料集如何被消費和生產,並集中管理資料集生命週期。Marquez 可與 Apache Airflow 一起用作 OpenLineage 後端。

Meltano - 開源、自託管、CLI 優先、可除錯且可擴充套件的 ELT 工具,它採用 Singer 進行提取和載入,利用 dbt 進行轉換,並 與 Airflow 整合進行編排

Nexla - 構建、轉換和管理與資料庫、API、流、SaaS 服務、事件甚至電子郵件之間的資料流。當您的 Nexla flow 執行完成後,使用 Nexla 的 Airflow Operator 在其他 Operator 中觸發 flows 啟動。

Oozie to Airflow - 一個工具,用於輕鬆在 Apache Oozie 工作流程和 Apache Airflow 工作流程之間進行轉換。

OpenLineage - 一個開放標準,用於收集資料血緣關係,可用於跟蹤資料集在包括 Apache Airflow 在內的多個系統中的路徑。

Panda Patrol - 在您的 Airflow DAG 中測試和分析您的資料。內建儀表盤和警報。

PowerBI-Airflow-Plugin - 用於 Power BI 的 Airflow 外掛包含一個定製的 Airflow Operator,設計用於重新整理 Power BI 資料集。

Pylint-Airflow - 一個用於 Airflow 程式碼靜態程式碼分析的 Pylint 外掛。

Redactics - 一個託管裝置(基於 Airflow 構建),安裝在您的資料庫旁邊,為不斷增長的資料管理工作流程集合提供支援。

simple-dag-editor - 零配置的 Airflow 工具,可讓您管理您的 DAG 檔案。

Viewflow - 一個基於 Airflow 的框架,允許資料科學家無需編寫 Airflow 程式碼即可建立資料模型。

whirl - 快速迭代式本地開發和測試 Apache Airflow 工作流程。

ZenML - 在 Airflow 上執行您的機器學習特定管道,輕鬆與您現有的資料科學工具和工作流程整合。

Airflow Vscode Extension 這是一個適用於 Apache Airflow 2+ 的 VSCode 擴充套件。您可以觸發您的 DAG、暫停/恢復 DAG、檢視執行日誌、探索原始碼等等。

Airflow Provider Template - 用於建立和測試 Airflow Provider 包的模板和命令。

Airflow Template - 用於建立最小 Airflow 環境以進行快速測試和原型開發的模板和命令。

airflow-priority - Airflow DAG 的優先順序標籤(P1、P2 等),並自動向 Datadog、New Relic、Slack、Discord 等傳送警報

airflow-config - 基於 Pydantic / Hydra 的配置系統,用於 DAG 和 Task 引數

airflow-supervisor - 易於使用的 supervisor 整合,適用於長時間執行或“始終開啟”的 DAG

 

Airflow Provider 系統測試儀表盤

Amazon provider 包健康狀態儀表盤 - 列出 Amazon provider 包中所有系統測試及其當前健康狀態的儀表盤:上次執行狀態(成功/失敗、平均持續時間等)。

Google provider 包健康狀態儀表盤 - 列出 Google provider 包中所有系統測試及其當前健康狀態的儀表盤

LLM Provider 健康狀態儀表盤 - 列出 LLM provider 包中所有系統測試及其當前健康狀態的儀表盤:最近 7 次執行的執行狀態(成功/失敗、執行日期)。

Teradata Provider 健康狀態儀表盤 - 列出 Teradata Provider 系統測試狀態及其最近幾次執行健康狀態的儀表盤。