airflow.providers.apache.druid.transfers.hive_to_druid¶

該模組包含用於將資料從 Hive 移動到 Druid 的運算子。

屬性¶

`LOAD_CHECK_INTERVAL`
`DEFAULT_TARGET_PARTITION_SIZE`

類¶

HiveToDruidOperator

將資料從 Hive 移動到 Druid。

模組內容¶

airflow.providers.apache.druid.transfers.hive_to_druid.LOAD_CHECK_INTERVAL = 5[原始碼]¶

airflow.providers.apache.druid.transfers.hive_to_druid.DEFAULT_TARGET_PARTITION_SIZE = 5000000[原始碼]¶

類 airflow.providers.apache.druid.transfers.hive_to_druid.HiveToDruidOperator(*, sql, druid_datasource, ts_dim, metric_spec=None, hive_cli_conn_id='hive_cli_default', druid_ingest_conn_id='druid_ingest_default', metastore_conn_id='metastore_default', hadoop_dependency_coordinates=None, intervals=None, num_shards=-1, target_partition_size=-1, query_granularity='NONE', segment_granularity='DAY', hive_tblproperties=None, job_properties=None, **kwargs)[原始碼]¶

基類：airflow.models.BaseOperator

將資料從 Hive 移動到 Druid。

[del]請注意，目前資料在推送到 Druid 之前會載入到記憶體中，因此此運算子應僅用於少量資料。[/del]

引數：

sql (str) – 要對 Druid 資料庫執行的 SQL 查詢。(模板化)
druid_datasource (str) – 您想在 Druid 中攝取到其中的資料來源
ts_dim (str) – 時間戳維度
metric_spec (list[Any] | None) – 您想為資料定義的指標
hive_cli_conn_id (str) – Hive 連線 ID
druid_ingest_conn_id (str) – Druid 攝取連線 ID
metastore_conn_id (str) – Metastore 連線 ID
hadoop_dependency_coordinates (list[str] | None) – 要嵌入到攝取 JSON 中的座標列表
intervals (list[Any] | None) – 定義段的時間間隔列表，此引數會按原樣傳遞給 JSON 物件。(模板化)
num_shards (float) – 直接指定要建立的分片數量。
target_partition_size (int) – 分割槽中包含的目標行數，
query_granularity (str) – 查詢結果時可以使用的最小粒度以及段內資料的粒度。例如，值“minute”意味著資料按分鐘粒度進行聚合。也就是說，如果在元組（minute(timestamp), dimensions）中存在衝突，那麼它將使用聚合器將值聚合在一起，而不是儲存單獨的行。粒度為“NONE”表示毫秒粒度。
segment_granularity (str) – 建立時間塊時的粒度。每個時間塊可以建立多個段。例如，使用“DAY” segmentGranularity 時，同一天的事件會落入同一時間塊，可以根據其他配置和輸入大小選擇性地進一步分割槽為多個段。
hive_tblproperties (dict[Any, Any] | None) – Hive 中用於暫存表的 tblproperties 的附加屬性
job_properties (dict[Any, Any] | None) – 作業的附加屬性

template_fields: collections.abc.Sequence[str] = ('sql', 'intervals')[原始碼]¶

template_ext: collections.abc.Sequence[str] = ('.sql',)[原始碼]¶

template_fields_renderers[原始碼]¶

sql[原始碼]¶

druid_datasource[原始碼]¶

ts_dim[原始碼]¶

intervals = ['{{ ds }}/{{ logical_date.add_days(1) | ds }}'][原始碼]¶

num_shards = -1[原始碼]¶

target_partition_size = -1[原始碼]¶

query_granularity = 'NONE'[原始碼]¶

segment_granularity = 'DAY'[原始碼]¶

metric_spec[原始碼]¶

hive_cli_conn_id = 'hive_cli_default'[原始碼]¶

hadoop_dependency_coordinates = None[原始碼]¶

druid_ingest_conn_id = 'druid_ingest_default'[原始碼]¶

metastore_conn_id = 'metastore_default'[原始碼]¶

hive_tblproperties[原始碼]¶

job_properties = None[原始碼]¶

execute(context)[原始碼]¶

在建立運算子時派生。

Context 是渲染 Jinja 模板時使用的相同字典。

有關更多上下文，請參閱 get_template_context。

construct_ingest_query(static_path, columns)[原始碼]¶

構建用於 HDFS TSV 載入的攝取查詢。

引數：

static_path (str) – 資料所在的 HDFS 路徑
columns (list[str]) – 所有可用列的列表