Google Cloud Storage 到 Trino 傳輸運算子¶
Google 有一項服務叫做 Google Cloud Storage。這項服務用於儲存來自各種應用程式的大量資料。
Trino 是一個開源、快速、分散式 SQL 查詢引擎,用於針對從千兆位元組到拍位元組的各種大小的資料來源執行互動式分析查詢。Trino 允許在資料所在的位置查詢資料,包括 Hive、Cassandra、關係型資料庫甚至專有資料儲存。單個 Trino 查詢可以組合來自多個來源的資料,從而實現跨整個組織的分析。
從 GCS 載入 CSV 到 Trino 表¶
要將 CSV 檔案從 Google Cloud Storage 載入到 Trino 表,可以使用 GCSToTrinoOperator。
此運算子假定 CSV 沒有標題行,並且資料與預先存在的 presto 表中的列對應。可以選擇將 schema 作為字串元組/列表提供,或作為與 CSV 檔案位於同一儲存桶中的 JSON 檔案路徑提供。
tests/system/trino/example_gcs_to_trino.py
gcs_csv_to_trino_table = GCSToTrinoOperator(
task_id="gcs_csv_to_trino_table",
source_bucket=BUCKET,
source_object=PATH_TO_FILE,
trino_table=TRINO_TABLE,
)