tests.system.apache.hive.example_twitter_dag

這是一個用於管理 Twitter 資料的示例 DAG。

屬性

ENV_ID

DAG_ID

fetch

test_run

函式

fetch_tweets()

此任務應呼叫 Twitter API,檢索昨天來自和傳送給這四個 Twitter

clean_tweets()

這是一個清理八個檔案的佔位符。在此步驟中,您可以刪除或選擇性保留列

analyze_tweets()

這是一個分析 Twitter 資料的佔位符。可以簡單地透過演算法進行情感分析

transfer_to_db()

這是一個從 Hive 資料中提取摘要並將其儲存到 MySQL 的佔位符。

模組內容

tests.system.apache.hive.example_twitter_dag.ENV_ID[source]
tests.system.apache.hive.example_twitter_dag.DAG_ID = 'example_twitter_dag'[source]
tests.system.apache.hive.example_twitter_dag.fetch_tweets()[source]

此任務應呼叫 Twitter API,檢索昨天來自和傳送給這四個 Twitter 使用者(Twitter_A,..,Twitter_D)的推文。此任務應生成八個 csv 輸出檔案,命名約定為 direction(from or to)_twitterHandle_date.csv

tests.system.apache.hive.example_twitter_dag.clean_tweets()[source]

這是一個清理八個檔案的佔位符。在此步驟中,您可以刪除或選擇性保留列以及文字的不同部分。

tests.system.apache.hive.example_twitter_dag.analyze_tweets()[source]

這是一個分析 Twitter 資料的佔位符。可以簡單地透過 bag of words 等演算法進行情感分析,或者進行更復雜的分析。您也可以查閱 Web Services 來執行此類任務。

tests.system.apache.hive.example_twitter_dag.transfer_to_db()[source]

這是一個從 Hive 資料中提取摘要並將其儲存到 MySQL 的佔位符。

tests.system.apache.hive.example_twitter_dag.fetch[source]
tests.system.apache.hive.example_twitter_dag.test_run[source]

此條目是否有幫助?