Amazon Athena SQL¶
Amazon Athena 是一個互動式查詢服務,可使用標準 SQL 輕鬆分析 Amazon Simple Storage Service (S3) 中的資料。Athena 是無伺服器的,因此無需設定或管理基礎設施,您只需為執行的查詢付費。要開始使用,只需指向 S3 中的資料,定義模式,然後開始使用標準 SQL 進行查詢。
先決條件任務¶
要使用這些運算子,您必須執行以下幾項操作
透過 pip 安裝 API 庫。
pip install 'apache-airflow[amazon]'詳細資訊請參閱 Airflow® 安裝
設定連線.
運算子¶
執行 SQL 查詢¶
通用的 SQLExecuteQueryOperator 可用於使用 Athena 連線執行針對 Amazon Athena 的 SQL 查詢。
要對 Amazon Athena 執行單個 SQL 查詢,而無需將結果返回到 Airflow,請改用 AthenaOperator 代替。
common/sql/tests/system/common/sql/example_sql_execute_query.py
execute_query = SQLExecuteQueryOperator(
task_id="execute_query",
sql=f"SELECT 1; SELECT * FROM {AIRFLOW_DB_METADATA_TABLE} LIMIT 1;",
split_statements=True,
return_last=False,
)
此外,如果您需要使用 Amazon Athena 進行簡單的資料質量測試,您可以使用 SQLTableCheckOperator
以下示例演示瞭如何例項化 SQLTableCheckOperator 任務。
common/sql/tests/system/common/sql/example_sql_column_table_check.py
row_count_check = SQLTableCheckOperator(
task_id="row_count_check",
table=AIRFLOW_DB_METADATA_TABLE,
checks={
"row_count_check": {
"check_statement": "COUNT(*) = 1",
}
},
)