精品精品国产理论在线 - 全国亚洲最大的av网站久久久 - 国产不卡视频一区二区三区四区 - 亚洲一区二区观看播放

不會寫代碼如何進行大數據文本分析——詞頻統(tǒng)計篇

2020-03-18
admin
摘要:伴隨著互聯(lián)網的發(fā)展,人們越來越能發(fā)現數據尤其是大數據對于工作、生活的意義,“大數據是信息時代的石油”,如何從海量數據中挖掘有效信息是許多人面臨的難題。

提到大數據分析,百度百科會為你提供許多專業(yè)名詞,人們往往聯(lián)想到的是掌握了專業(yè)技能的程序員。但事實上,普通人或許不需要理解諸如python等程序語言背后的運行機制,他們可以通過更簡單便捷的途徑找到適合自己的工具,完成專業(yè)程序員用代碼才可以實現的任務。

 

舉個最簡單的例子,當下數據分析文章中必不可少的就是詞云圖,指的是對文本中出現頻率較高的“關鍵詞”以視覺化的形式呈現。如何實現這一功能,市面上已經出現了許多在線免費詞云工具,英文版有Wordart、Wordcloud,中文版有微詞云,都可以方便快捷地達到如下圖效果:

簡單的一鍵生成詞云圖,其背后是通過代碼幫你解決了多種模式的文本分詞處理、去停用詞、去高頻詞等難題。但是,這些市面上已有的免費工具普遍存在許多弊端,就是無法解決批量文本(往往只能導入單篇文本或多次錄入),也無法根據詞性進行篩選,再復雜一點的計算諸如Bigrams計算更是沒有辦法實現。Bigrams計算是為了探測出文本中的新詞,基于詞匯之間的共現關系---如果兩個詞經常一起毗鄰出現,那么這兩個詞可以結合成一個新詞,比如“新冠”、“肺炎”經常一起出現在不同的段落里,那么,“新冠肺炎”則是二者合成出來的新詞。

 

機器是死的,但人的需求往往是多變的。一個社會科學領域的老師想要分析疫情期間媒體報道中出現的高頻人物,或者是媒體的報道傾向,他只需要篩選出數據中的名詞或形容詞;而當涉及到本學科出現的專有名詞時,他又需要一個工具能夠對這些名詞進行全新的組合,建立專屬的學科詞典。

 

背后更深的邏輯是,文本挖掘中對詞匯的分析功能是遠大于詞云圖的。銳研云文析平臺,可以基于上述功能,提供專業(yè)化的文本分析工具,具體體現在以下幾點:


支持批量文本數據導入

支持詞性選擇

支持自定義詞典





在這里,我們以疫情期間在網絡公開平臺爬取到的數千條疫情相關新聞為例,當我們想要實現批量中文分詞及詞頻統(tǒng)計時,我們是如何完成的:




Step 1  導入數據


首先登陸銳研云文析,在【我的分析】中新建文本庫,點擊[操作],選擇其中的[數據]字段,選取需要分析處理的數據文件,在標題映射中選擇對應的目標字段,最后進行上傳。





Step 2 數據預處理


在處理數據之前需要對數據進行一定的預處理,以避免無用的詞匯對分析結果造成干擾。


首先我們觀察到數據中含有“此內容為第一財經原創(chuàng),著作權歸第一財經所有。未經第一財經書面授權,不得以任何方式加以使用,包括轉載、摘編、復制或建立鏡像。第一財經保留追究侵權者法律責任的權利”等無效信息;可以用數據清洗對無用信息來進行替換。


將內容中的一些無效信息替換成空格,可以達到刪除的效果。


Step 3 自定義詞典


我們研究的話題有一些系統(tǒng)無法識別的詞組出現,譬如“新冠肺炎”、“新型冠狀病毒”、“華南海鮮市場”等,系統(tǒng)無法識別這些詞組;可以在【分析配置】中通過添加自定義詞組來避免此類問題。在這里,我們創(chuàng)建了一個疫情詞典,根據自己的文本數據添加相應的詞組。





Step 4 詞頻分析


詞頻分析可以實現對文本的分詞和詞頻統(tǒng)計。目前分詞算法支持基本分詞、精準分詞、NLP分詞和面向索引分詞四類。


點擊“新建詞頻統(tǒng)計”;我們分析的數據是第一財經報道的新聞內容,分詞字段選擇“內容”;在這里我們使用的分詞算法是“精準分詞”;在分詞詞典中找到剛剛創(chuàng)建的分詞詞典“疫情”;最后點擊“開始分詞”,等待分析完成。


Step 5 分析結果

云文析目前支持對詞頻分類結果進行數量統(tǒng)計、詞性篩選,并自動生成簡單詞云圖。

想要生成更具設計感的詞云圖,云文析支持導出數據結果,可利用目前市面上的在線免費工具(Wordart、Wordcloud,微詞云等),選擇合適的模版生成您需要的樣式。

點擊鏈接查看在線免費生成詞云圖教程:



Wordart

https://mp.weixin.qq.com/s/ErTP92fF8R8zPgiROObmRw

https://www.sohu.com/a/151356882_99910245

 

微詞云

https://zhuanlan.zhihu.com/p/59252741

 

Wordclouds

https://blog.csdn.net/DSTJWJW/article/details/93884142


銳研團隊后續(xù)會分享更多數據分析相關實用工具案例,希望此文能為您提供一些幫助。


疫情期間,銳研云文析開放個人用戶注冊,有相關研究意向,歡迎掃描下方二維碼聯(lián)系我們的官方客服,為您開通更多權限。銳研·云文析網址:https://wx.ringdata.com

發(fā)表評論
評論通過審核后顯示。
  銳研中國
移動訪問