airflow.providers.apache.druid.transfers.hive_to_druid¶
該模組包含用於將資料從 Hive 移動到 Druid 的運算子。
屬性¶
類¶
將資料從 Hive 移動到 Druid。 |
模組內容¶
- airflow.providers.apache.druid.transfers.hive_to_druid.DEFAULT_TARGET_PARTITION_SIZE = 5000000[原始碼]¶
- 類 airflow.providers.apache.druid.transfers.hive_to_druid.HiveToDruidOperator(*, sql, druid_datasource, ts_dim, metric_spec=None, hive_cli_conn_id='hive_cli_default', druid_ingest_conn_id='druid_ingest_default', metastore_conn_id='metastore_default', hadoop_dependency_coordinates=None, intervals=None, num_shards=-1, target_partition_size=-1, query_granularity='NONE', segment_granularity='DAY', hive_tblproperties=None, job_properties=None, **kwargs)[原始碼]¶
基類:
airflow.models.BaseOperator將資料從 Hive 移動到 Druid。
[del]請注意,目前資料在推送到 Druid 之前會載入到記憶體中,因此此運算子應僅用於少量資料。[/del]
- 引數:
sql (str) – 要對 Druid 資料庫執行的 SQL 查詢。(模板化)
druid_datasource (str) – 您想在 Druid 中攝取到其中的資料來源
ts_dim (str) – 時間戳維度
metric_spec (list[Any] | None) – 您想為資料定義的指標
hive_cli_conn_id (str) – Hive 連線 ID
druid_ingest_conn_id (str) – Druid 攝取連線 ID
metastore_conn_id (str) – Metastore 連線 ID
hadoop_dependency_coordinates (list[str] | None) – 要嵌入到攝取 JSON 中的座標列表
intervals (list[Any] | None) – 定義段的時間間隔列表,此引數會按原樣傳遞給 JSON 物件。(模板化)
num_shards (float) – 直接指定要建立的分片數量。
target_partition_size (int) – 分割槽中包含的目標行數,
query_granularity (str) – 查詢結果時可以使用的最小粒度以及段內資料的粒度。例如,值“minute”意味著資料按分鐘粒度進行聚合。也就是說,如果在元組(minute(timestamp), dimensions)中存在衝突,那麼它將使用聚合器將值聚合在一起,而不是儲存單獨的行。粒度為“NONE”表示毫秒粒度。
segment_granularity (str) – 建立時間塊時的粒度。每個時間塊可以建立多個段。例如,使用“DAY” segmentGranularity 時,同一天的事件會落入同一時間塊,可以根據其他配置和輸入大小選擇性地進一步分割槽為多個段。
hive_tblproperties (dict[Any, Any] | None) – Hive 中用於暫存表的 tblproperties 的附加屬性
job_properties (dict[Any, Any] | None) – 作業的附加屬性
- template_fields: collections.abc.Sequence[str] = ('sql', 'intervals')[原始碼]¶
- template_ext: collections.abc.Sequence[str] = ('.sql',)[原始碼]¶