Amazon Athena SQL

Amazon Athena 是一個互動式查詢服務,可使用標準 SQL 輕鬆分析 Amazon Simple Storage Service (S3) 中的資料。Athena 是無伺服器的,因此無需設定或管理基礎設施,您只需為執行的查詢付費。要開始使用,只需指向 S3 中的資料,定義模式,然後開始使用標準 SQL 進行查詢。

先決條件任務

要使用這些運算子,您必須執行以下幾項操作

運算子

執行 SQL 查詢

通用的 SQLExecuteQueryOperator 可用於使用 Athena 連線執行針對 Amazon Athena 的 SQL 查詢。

要對 Amazon Athena 執行單個 SQL 查詢,而無需將結果返回到 Airflow,請改用 AthenaOperator 代替。

common/sql/tests/system/common/sql/example_sql_execute_query.py

execute_query = SQLExecuteQueryOperator(
    task_id="execute_query",
    sql=f"SELECT 1; SELECT * FROM {AIRFLOW_DB_METADATA_TABLE} LIMIT 1;",
    split_statements=True,
    return_last=False,
)

此外,如果您需要使用 Amazon Athena 進行簡單的資料質量測試,您可以使用 SQLTableCheckOperator

以下示例演示瞭如何例項化 SQLTableCheckOperator 任務。

common/sql/tests/system/common/sql/example_sql_column_table_check.py

row_count_check = SQLTableCheckOperator(
    task_id="row_count_check",
    table=AIRFLOW_DB_METADATA_TABLE,
    checks={
        "row_count_check": {
            "check_statement": "COUNT(*) = 1",
        }
    },
)

參考

此條目是否有幫助?