科技創(chuàng)新 | 基于互聯(lián)網(wǎng)的大數(shù)據(jù)研究平臺
- 2016-02-05
- 謝承灝 萌泰科技
銳研大數(shù)據(jù)研究平臺是一套基于Hadoop 平臺面向互聯(lián)網(wǎng)大數(shù)據(jù)領域,集互聯(lián)網(wǎng)數(shù)據(jù)動態(tài)采集、文本分析、數(shù)據(jù)可視化和專題數(shù)據(jù)庫管理于一體的軟件產(chǎn)品,并能夠支持自定義開發(fā)和擴展。
21世紀是互聯(lián)網(wǎng)大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡、電子商務等極大拓展了互聯(lián)網(wǎng)的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。如此眾多數(shù)據(jù)中的大部分為非結(jié)構化文本數(shù)據(jù)。如何通過對這些非結(jié)構化數(shù)據(jù)進行存儲、分析和利用,并從中挖掘出有價值的信息,將是下一代大數(shù)據(jù)調(diào)研技術的發(fā)展方向。
銳研大數(shù)據(jù)研究平臺(Ring BigResarch)是一套面向互聯(lián)網(wǎng)大數(shù)據(jù)領域,集互聯(lián)網(wǎng)數(shù)據(jù)動態(tài)采集、文本分析、數(shù)據(jù)可視化和專題數(shù)據(jù)庫管理于一體的軟件產(chǎn)品。產(chǎn)品基于主流的開源軟件(Hadoop)技術框架,具有穩(wěn)定、可靠、高性能和高可擴展性。
銳研大數(shù)據(jù)研究平臺主要包括以下幾個組成部分:
(1)專題數(shù)據(jù)庫
(Ring BigResearch Databases)
專題數(shù)據(jù)庫是數(shù)據(jù)內(nèi)容側(cè)重于某一專題的數(shù)據(jù)集合,常針對某類專業(yè)應用或具體領域而建立。
專題數(shù)據(jù)庫采用傳統(tǒng)關系數(shù)據(jù)庫與Hadoop 平臺相結(jié)合的基礎架構,能夠滿足各類結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù)的存儲和訪問需求。
(2)大數(shù)據(jù)分布式計算平臺
(Ring BigResearch Hadoop)
銳研大數(shù)據(jù)分布式計算平臺是大數(shù)據(jù)研究平臺的支撐平臺。
基于Hadoop 平臺架構,集成了HDFS, Hive和MapReduce等模塊,能夠支持建立服務器集群進行分布式存儲和計算,部署容易,擴展性強。
(3)互聯(lián)網(wǎng)數(shù)據(jù)動態(tài)采集系統(tǒng)
(Ring BigResearch WebExtrator)
銳研互聯(lián)網(wǎng)數(shù)據(jù)動態(tài)采集系統(tǒng)是針對大數(shù)據(jù)調(diào)研領域的一款數(shù)據(jù)采集產(chǎn)品。該系統(tǒng)能夠允許用戶設定互聯(lián)網(wǎng)數(shù)據(jù)源,通過數(shù)據(jù)抓取技術動態(tài)采集文本數(shù)據(jù),數(shù)據(jù)源包括各類論壇、微博、新聞和文獻等平臺。用戶可以自定義需要監(jiān)測的關鍵字及關鍵字組合,系統(tǒng)能夠智能抓取相關網(wǎng)頁的文本內(nèi)容和URL資源。
(4)文本內(nèi)容分析系統(tǒng)
(Ring BigResearch TextAnalyzer)
銳研文本內(nèi)容分析系統(tǒng)能夠?qū)Σ杉奈谋緝?nèi)容進行文本分析,通過中文處理引擎,結(jié)合系統(tǒng)和用戶自定義的詞匯字典庫進行各類主題分析。系統(tǒng)主要分為中文處理引擎、詞匯字典庫和分析結(jié)果展現(xiàn)三個部分。其中引擎主要處理中文分詞、將分詞與詞匯字典庫中的字典進行匹配、分類。詞匯字典庫主要負責存儲主題模型的詞匯詞典,詞典可由用戶進行自定義增減。分析結(jié)果展現(xiàn)部分可進行常規(guī)的詞頻分析,聚類分析,情感分析等。
(5)數(shù)據(jù)可視化系統(tǒng)
(Ring BigResearch DataVisual)
數(shù)據(jù)可視化系統(tǒng)是大數(shù)據(jù)研究平臺的核心模塊之一,能夠?qū)崿F(xiàn)可視化的統(tǒng)計報表、文本詞云、數(shù)據(jù)地圖等功能,并能夠支持用戶自定義的可視化開發(fā)。數(shù)據(jù)可視化有助于發(fā)現(xiàn)數(shù)據(jù)間隱藏的相關關系,是進行描述性研究和探索性研究的必要工具。
(6)專題數(shù)據(jù)管理系統(tǒng)
(Ring BigResearch SpecDBMS)
銳研專題數(shù)據(jù)庫管理系統(tǒng)是基于全新云計算架構研發(fā)的在線數(shù)據(jù)共享管理平臺。該平臺可以進行一個或多個專題數(shù)據(jù)庫的存儲、訪問和管理維護功能。系統(tǒng)提供了基于Web的統(tǒng)一管理平臺,以方便對各類數(shù)據(jù)庫進行統(tǒng)一管理;系統(tǒng)可為快速構建大數(shù)據(jù)研究服務體系提供了專業(yè)的技術支撐。
- 上海萌泰數(shù)據(jù)科技助力湘南學院教育創(chuàng)新,李軍博士主講《作為研究方法的人工智能》
- 上海市社會工作研究會2024年學術年會暨第二屆長三角金融社會工作論壇在滬舉行
- 人工智能如何改變社會科學的面貌?——AI與社會科學的學術對話紀實(下)
- 人工智能如何改變社會科學的面貌?——AI與社會科學的學術對話紀實(上)
- 校企協(xié)同 | 浙江越秀外國語學院到訪上海萌泰數(shù)據(jù)
- 2024年(第十六屆)國際數(shù)據(jù)挖掘與應用統(tǒng)計研究會年會在哈爾濱商業(yè)大學成功舉辦
- 全面深化改革與中國社會學新征程:中國社會學會2024年學術年會在哈爾濱工程大學舉行