airflow.providers.apache.druid.transfers.hive_to_druid

該模組包含用於將資料從 Hive 移動到 Druid 的運算子。

屬性

LOAD_CHECK_INTERVAL

DEFAULT_TARGET_PARTITION_SIZE

HiveToDruidOperator

將資料從 Hive 移動到 Druid。

模組內容

airflow.providers.apache.druid.transfers.hive_to_druid.LOAD_CHECK_INTERVAL = 5[原始碼]
airflow.providers.apache.druid.transfers.hive_to_druid.DEFAULT_TARGET_PARTITION_SIZE = 5000000[原始碼]
airflow.providers.apache.druid.transfers.hive_to_druid.HiveToDruidOperator(*, sql, druid_datasource, ts_dim, metric_spec=None, hive_cli_conn_id='hive_cli_default', druid_ingest_conn_id='druid_ingest_default', metastore_conn_id='metastore_default', hadoop_dependency_coordinates=None, intervals=None, num_shards=-1, target_partition_size=-1, query_granularity='NONE', segment_granularity='DAY', hive_tblproperties=None, job_properties=None, **kwargs)[原始碼]

基類:airflow.models.BaseOperator

將資料從 Hive 移動到 Druid。

[del]請注意,目前資料在推送到 Druid 之前會載入到記憶體中,因此此運算子應僅用於少量資料。[/del]

引數:
  • sql (str) – 要對 Druid 資料庫執行的 SQL 查詢。(模板化)

  • druid_datasource (str) – 您想在 Druid 中攝取到其中的資料來源

  • ts_dim (str) – 時間戳維度

  • metric_spec (list[Any] | None) – 您想為資料定義的指標

  • hive_cli_conn_id (str) – Hive 連線 ID

  • druid_ingest_conn_id (str) – Druid 攝取連線 ID

  • metastore_conn_id (str) – Metastore 連線 ID

  • hadoop_dependency_coordinates (list[str] | None) – 要嵌入到攝取 JSON 中的座標列表

  • intervals (list[Any] | None) – 定義段的時間間隔列表,此引數會按原樣傳遞給 JSON 物件。(模板化)

  • num_shards (float) – 直接指定要建立的分片數量。

  • target_partition_size (int) – 分割槽中包含的目標行數,

  • query_granularity (str) – 查詢結果時可以使用的最小粒度以及段內資料的粒度。例如,值“minute”意味著資料按分鐘粒度進行聚合。也就是說,如果在元組(minute(timestamp), dimensions)中存在衝突,那麼它將使用聚合器將值聚合在一起,而不是儲存單獨的行。粒度為“NONE”表示毫秒粒度。

  • segment_granularity (str) – 建立時間塊時的粒度。每個時間塊可以建立多個段。例如,使用“DAY” segmentGranularity 時,同一天的事件會落入同一時間塊,可以根據其他配置和輸入大小選擇性地進一步分割槽為多個段。

  • hive_tblproperties (dict[Any, Any] | None) – Hive 中用於暫存表的 tblproperties 的附加屬性

  • job_properties (dict[Any, Any] | None) – 作業的附加屬性

template_fields: collections.abc.Sequence[str] = ('sql', 'intervals')[原始碼]
template_ext: collections.abc.Sequence[str] = ('.sql',)[原始碼]
template_fields_renderers[原始碼]
sql[原始碼]
druid_datasource[原始碼]
ts_dim[原始碼]
intervals = ['{{ ds }}/{{ logical_date.add_days(1) | ds }}'][原始碼]
num_shards = -1[原始碼]
target_partition_size = -1[原始碼]
query_granularity = 'NONE'[原始碼]
segment_granularity = 'DAY'[原始碼]
metric_spec[原始碼]
hive_cli_conn_id = 'hive_cli_default'[原始碼]
hadoop_dependency_coordinates = None[原始碼]
druid_ingest_conn_id = 'druid_ingest_default'[原始碼]
metastore_conn_id = 'metastore_default'[原始碼]
hive_tblproperties[原始碼]
job_properties = None[原始碼]
execute(context)[原始碼]

在建立運算子時派生。

Context 是渲染 Jinja 模板時使用的相同字典。

有關更多上下文,請參閱 get_template_context。

construct_ingest_query(static_path, columns)[原始碼]

構建用於 HDFS TSV 載入的攝取查詢。

引數:
  • static_path (str) – 資料所在的 HDFS 路徑

  • columns (list[str]) – 所有可用列的列表

本條目有幫助嗎?