網站數據采集的五種方法(一文詳解數據采集)
時間:2024-03-16
點擊:108次
1.什么是采集
在一般的分層業務系統中,數據采集都是一個非常重要的部分:主要負責數據的輸入。
2.為什么需要采集
在傳統的管理系統中,一般的業務系統都是采集,存儲,顯示 ,報表,這是傳統分層模型下的架構方式下的業務功能;我們重點看一下數據采集部分;
3.場景分析
1.第一種數據采集就是基于請求式樣的采集,意味著請求即是采集。常見的情景就是http 請求,把大量請求作為數據源存儲都db中。
2.第二種就是基于網頁版的數據采集,前端使用打點技術,沒隔一段時間完成數據采集,存儲到db中。
3.最后一種就是數據鉆取方式,從中間表查詢存儲到db中
4基于etl導入的方式數據采集。
5.基于消息隊列的數據采集,
4.解決方案:
第1種方案就是常見的程序采集,實現是實體類的映射,存儲到db中,主要是實現對bean的映射和格式轉換。入xml,object,配置文件等自定義數據結構等解析
數組解析,配置文件讀取,xml的解析,object解析,json解析,等數據基本數據類型和復雜數據類型解析。
xml這方面實現技術:jaxb2
配置文件實現jdk protites,map 映射
xml解析:dom4j,jdom,
object:對象之間的映射,一對多,多對一等方式,常見入herbernate,mybatis等。
json:gson 實現,fastjson等
第二種方案:是基于網頁采集的,常見的入divolte技術等。
第三種方案:比較常見的是啟動一個定時任務去采集,我們可以到中間庫去采集,查詢出中間庫的數據,定時采集到自己的業務表中。
第四中方案:利用db之前的遷移工具,如oracle 的導入泵,rman工具等。
第五種方案: 基于消息隊列的方式,如kafka進行監聽和消費存儲到db中。