Google Cloud Storage 到 Presto 傳輸運算子¶
Google 有一項服務 Google Cloud Storage。這項服務用於儲存來自各種應用程式的大資料。
Presto 是一個開源分散式 SQL 查詢引擎,用於針對從千兆位元組到拍位元組的各種大小資料來源執行互動式分析查詢。Presto 允許在資料所在地進行查詢,包括 Hive、Cassandra、關係型資料庫甚至專有資料儲存。單個 Presto 查詢可以合併來自多個來源的資料,從而進行跨越整個組織的分析。
從 GCS 載入 CSV 到 Presto 表¶
要將 CSV 檔案從 Google Cloud Storage 載入到 Presto 表,您可以使用 GCSToPrestoOperator。
此運算子假定 CSV 不包含標題行,並且資料與預先存在的 presto 表中的列對應。可選地,您可以將 schema 指定為字串元組/列表,或者指定為與 CSV 檔案位於同一儲存桶 (bucket) 中的 JSON 檔案路徑。
tests/system/presto/example_gcs_to_presto.py
gcs_csv_to_presto_table = GCSToPrestoOperator(
task_id="gcs_csv_to_presto_table",
source_bucket=BUCKET,
source_object=PATH_TO_FILE,
presto_table=PRESTO_TABLE,
)