精品精品国产理论在线 - 全国亚洲最大的av网站久久久 - 国产不卡视频一区二区三区四区 - 亚洲一区二区观看播放

銳研·云采集:互聯(lián)網(wǎng)爬蟲采集平臺

2016-02-08
萌泰科技
摘要:銳研互聯(lián)網(wǎng)數(shù)據(jù)動態(tài)采集系統(tǒng)(Ring BigResearch WebExtractor)是一套面向互聯(lián)網(wǎng)文本采集領(lǐng)域,靈活可配置的動態(tài)采集系統(tǒng)。系統(tǒng)允許用戶自定義需要監(jiān)測的互聯(lián)網(wǎng)數(shù)據(jù)源,能夠采集新聞、門戶、論壇、文獻等各類互聯(lián)網(wǎng)數(shù)據(jù)。支持關(guān)鍵字檢索條件,支持智能抓取網(wǎng)頁中文本內(nèi)容和背景數(shù)據(jù),支持提取標題、發(fā)布人、發(fā)布時間、來源、內(nèi)容、摘要、關(guān)鍵詞等信息。產(chǎn)品基于分布式爬蟲框架,具有穩(wěn)定、可靠、高性能和高可擴展性。

一、概述

銳研互聯(lián)網(wǎng)數(shù)據(jù)動態(tài)采集系統(tǒng)(Ring BigResearch WebExtractor)是一套面向互聯(lián)網(wǎng)文本采集領(lǐng)域,靈活可配置的動態(tài)采集系統(tǒng)。系統(tǒng)允許用戶自定義需要監(jiān)測的互聯(lián)網(wǎng)數(shù)據(jù)源,能夠采集新聞、門戶、論壇、文獻等各類互聯(lián)網(wǎng)數(shù)據(jù)。支持關(guān)鍵字檢索條件,支持智能抓取網(wǎng)頁中文本內(nèi)容和背景數(shù)據(jù),支持提取標題、發(fā)布人、發(fā)布時間、來源、內(nèi)容、摘要、關(guān)鍵詞等信息。產(chǎn)品基于分布式爬蟲框架,具有穩(wěn)定、可靠、高性能和高可擴展性。

二、產(chǎn)品功能


1、系統(tǒng)集成

作為子系統(tǒng)能集成到統(tǒng)一的云管理平臺,共享云平臺的統(tǒng)一管理功能。

2、項目管理

新建采集項目,支持啟動、暫停和關(guān)閉;支持自定義互聯(lián)網(wǎng)數(shù)據(jù)源,允許對采集數(shù)據(jù)源進行靈活配置,支持智能抓取相關(guān)網(wǎng)頁的文本內(nèi)容和背景數(shù)據(jù);抓取的數(shù)據(jù)能夠同時存儲到數(shù)據(jù)庫和文件。

3、數(shù)據(jù)抓取

基本分布式爬蟲框架;能夠抓取新聞類、論壇類、文獻類平臺的數(shù)據(jù);能進根據(jù)數(shù)據(jù)源配置關(guān)鍵詞組合、時間范圍、子頻道等,實現(xiàn)定向的基于關(guān)鍵詞的數(shù)據(jù)抓取;能夠配置抓取線程的數(shù)量,抓取時間間隔;支持斷點繼續(xù)。

4、采集監(jiān)控

數(shù)據(jù)的抓取的過程能夠?qū)崟r監(jiān)控和管理。

5、可視化爬蟲設(shè)計

能夠支持對爬蟲的可視化設(shè)計,基于Web瀏覽器進行爬蟲可視化配置,爬蟲的設(shè)計應(yīng)包括爬蟲入口、采集字段、頁面處理器、個性化配置等主要部分,一個爬蟲可以添加多個頁面處理器。

6、爬蟲市場

提供不少于380個新聞網(wǎng)站數(shù)據(jù)源的爬蟲采集模板,包括所有國家網(wǎng)信辦公布的可用于轉(zhuǎn)載的新聞媒體的網(wǎng)站。

7、分布式集群

集成IP動態(tài)代理池,支持采集節(jié)點的分布式部署,能夠支持大規(guī)模的分布式采集。


三、特色和優(yōu)勢


分布式爬蟲架構(gòu)

平臺采用基于分布式爬蟲架構(gòu),可實現(xiàn)高效的多線程,可擴展的的動態(tài)采集;

多數(shù)據(jù)源采集

支持抓取主流門戶、新聞、論壇、文獻等各類數(shù)據(jù)源;

面向主題的采集

支持靈活配置各類檢索條件,實現(xiàn)面向主題的數(shù)據(jù)采集。


四、產(chǎn)品體驗

銳研·云采集

    發(fā)表評論
    評論通過審核后顯示。
      銳研中國
    移動訪問