精品精品国产理论在线 - 全国亚洲最大的av网站久久久 - 国产不卡视频一区二区三区四区 - 亚洲一区二区观看播放

不會(huì)寫代碼如何進(jìn)行大數(shù)據(jù)文本分析——短語(yǔ)抽取篇

2020-03-31
admin

上一期欄目中我們介紹了如何利用銳研·云文析進(jìn)行詞頻統(tǒng)計(jì)并最終生成詞云圖。(《不會(huì)寫代碼如何進(jìn)行大數(shù)據(jù)文本分析——詞頻統(tǒng)計(jì)篇》)事實(shí)上,除了簡(jiǎn)單的詞頻統(tǒng)計(jì),云文析還能更進(jìn)一步進(jìn)行短語(yǔ)統(tǒng)計(jì)(支持N-GRAM分析算法),詞組數(shù)可選擇兩到四詞不等。

 

N-Gram是一種基于統(tǒng)計(jì)語(yǔ)言模型的算法。它的基本思想是將文本里面的內(nèi)容按照字節(jié)進(jìn)行大小為N的滑動(dòng)窗口操作,形成了長(zhǎng)度是N的字節(jié)片段序列。常應(yīng)用于搜索引擎或輸入法的猜想或者提示,在這里只是借助該算法實(shí)現(xiàn)簡(jiǎn)單的短語(yǔ)抽取以便更好的對(duì)文本內(nèi)容進(jìn)行描述性分析。


還是以疫情期間收集到的1733條第一財(cái)經(jīng)官網(wǎng)新聞數(shù)據(jù)為例,我們選擇了內(nèi)容字段進(jìn)行短語(yǔ)抽取,具體步驟如下:

首先在數(shù)據(jù)庫(kù)分析中新建短語(yǔ)抽取,我們?cè)谶@里選擇了兩詞抽取、三詞抽取和四詞抽取以作對(duì)比示范,大家可以根據(jù)具體需求進(jìn)行調(diào)整。



系統(tǒng)顯示運(yùn)行成功后,點(diǎn)擊右邊箭頭查看抽取結(jié)果

全部抽取結(jié)果如下,點(diǎn)擊詞組篩選可以分別查看兩詞、三詞、四詞抽取結(jié)果

在這里,我們先選擇查看兩詞抽取結(jié)果,由于選擇的文本內(nèi)容來(lái)源媒體報(bào)道,不免有一些固定格式及記者稱呼對(duì)結(jié)果產(chǎn)生干擾,我們選擇刪除了排序第4的詞語(yǔ)【財(cái)經(jīng)記者】和排序第17的【記者表示】。

最后,選擇生成前30詞云圖,兩詞短語(yǔ)抽取最終結(jié)果如下圖(字體越大,代表出現(xiàn)頻率越高):三三詞短語(yǔ)抽取結(jié)果如下圖:

銳研云文析作為文本大數(shù)據(jù)分析與挖掘云平臺(tái),可應(yīng)用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、人工智能等技術(shù)對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行分析挖掘,并呈現(xiàn)可視化分析結(jié)果。今后,銳研團(tuán)隊(duì)會(huì)分享更多數(shù)據(jù)分析相關(guān)實(shí)用工具及案例,希望此文能為您提供一些幫助。


疫情期間,銳研云文析開放個(gè)人用戶注冊(cè),有相關(guān)研究意向,歡迎掃描下方二維碼聯(lián)系我們的官方客服,為您開通更多權(quán)限。銳研·云文析網(wǎng)址:https://wx.ringdata.com


發(fā)表評(píng)論
評(píng)論通過(guò)審核后顯示。
  銳研中國(guó)
移動(dòng)訪問(wèn)