精品精品国产理论在线 - 全国亚洲最大的av网站久久久 - 国产不卡视频一区二区三区四区 - 亚洲一区二区观看播放

不會(huì)寫(xiě)代碼如何進(jìn)行大數(shù)據(jù)分析——文本分類篇

2020-04-10
admin
摘要:上一期文章中,上一期文章中,銳研團(tuán)隊(duì)介紹了如何利用云文析對(duì)文本內(nèi)容進(jìn)行LDA主題模型分析,最終將新聞報(bào)道主題分為五類。這期文章中,我們將介紹如何通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)對(duì)大批量文本的自動(dòng)分類。

一、傳統(tǒng)文本分類

文本分類是常見(jiàn)的自然語(yǔ)言處理,指按照一定的分類體系或規(guī)則對(duì)文本實(shí)現(xiàn)自動(dòng)劃歸類別的過(guò)程。社會(huì)科學(xué)領(lǐng)域中常應(yīng)用于信息索引、數(shù)字圖書(shū)管理、情報(bào)過(guò)濾等;商業(yè)領(lǐng)域中則常應(yīng)用于分析社交媒體中的大眾情感、將新聞文章按主題分類等。

 

傳統(tǒng)的文本分類主要依靠人工完成,費(fèi)時(shí)費(fèi)力;基于大數(shù)據(jù)文本挖掘的文本分類則具備專業(yè)門(mén)檻,一般包括文本預(yù)處理、分詞、模型構(gòu)建和分類幾個(gè)過(guò)程,社會(huì)科學(xué)領(lǐng)域的同仁們?cè)诟髯缘膶I(yè)領(lǐng)域中是佼佼者,在復(fù)雜的機(jī)器語(yǔ)言面前卻是門(mén)外漢。

 

如何擺脫傳統(tǒng)文本分類的復(fù)雜繁瑣,提高文本分類的效率、降低成本,同時(shí)又能找到更便捷的輔助工具完成專業(yè)程序員才能實(shí)現(xiàn)的任務(wù)?


二、銳研·云文析-文本分類

銳研·云文析的文本分類功能基于機(jī)器學(xué)習(xí)分類訓(xùn)練集進(jìn)行,無(wú)須復(fù)雜代碼即可實(shí)現(xiàn)文本分類。由于文本內(nèi)容差異,云文析平臺(tái)在提供系統(tǒng)已有分類訓(xùn)練集的同時(shí),設(shè)置了自定義分類訓(xùn)練集,用戶可根據(jù)自身需要建立不同的分類訓(xùn)練集以供機(jī)器學(xué)習(xí),最終實(shí)現(xiàn)大批量數(shù)據(jù)的處理。

依然以疫情期間我們爬取到的第一財(cái)經(jīng)相關(guān)新聞為例,本期文章將示范如何對(duì)這批數(shù)據(jù)進(jìn)行文本分類:

我們想對(duì)近千條新聞文本進(jìn)行報(bào)道主題的分類,首先就需要人工設(shè)定文本分類標(biāo)準(zhǔn)供機(jī)器學(xué)習(xí),我們參考了人大RUC工作坊在《2286篇肺炎報(bào)道觀察:誰(shuí)在新聞里發(fā)聲?》一文中對(duì)新聞報(bào)道主題的分類標(biāo)準(zhǔn),以及考慮到此次疫情仍在進(jìn)展中、財(cái)經(jīng)類媒體的報(bào)道方向,我們將新聞報(bào)道主題分為以下十類:

防控措施、數(shù)據(jù)通報(bào)、疫情現(xiàn)狀及前線動(dòng)態(tài)、科普/科研進(jìn)展、對(duì)日常生活影響、對(duì)行業(yè)影響、其他、典型人物事件、企業(yè)社會(huì)擔(dān)當(dāng)、慈善志愿活動(dòng)。

 

此次疫情數(shù)據(jù)共1733條,我們抽取了其中的200條對(duì)內(nèi)容字段進(jìn)行人工判斷,將文本內(nèi)容按照上述十個(gè)類別,分別添加至各類別下供機(jī)器參考學(xué)習(xí)。添加方式有兩種,可以手動(dòng)錄入文本內(nèi)容,也可選擇【導(dǎo)入數(shù)據(jù)】按鈕導(dǎo)入excel文件,如下圖所示新建【主題】訓(xùn)練集,不同類別可錄入多項(xiàng)文本內(nèi)容。


Step 1 建立分類訓(xùn)練集


STEP 2 進(jìn)行文本分類

建立好分類訓(xùn)練集后,我們就可以對(duì)文本進(jìn)行分類。選擇新建文本分類,分類字段選擇【內(nèi)容】字段,訓(xùn)練集選擇剛才建立的【主題】分類訓(xùn)練集

分類運(yùn)行成功后,點(diǎn)擊圖標(biāo)查看分類結(jié)果

文本分類結(jié)果如下,點(diǎn)擊柱狀圖和餅狀圖可查看具體占比;點(diǎn)擊【分析結(jié)果展示】可查看不同類別下的文章內(nèi)容、文章在該分類的概率等。

可以看出,第一財(cái)經(jīng)疫情相關(guān)報(bào)道中,關(guān)于防控措施主題的報(bào)道占比最多,共798篇,占比46.13%,由于疫情仍在進(jìn)展中,防控措施仍在不斷進(jìn)行,相關(guān)報(bào)道數(shù)量最多較為合理;緊隨其后的是對(duì)行業(yè)影響主題的報(bào)道,共584篇,占比33.76%;而科普/科研進(jìn)展、疫情現(xiàn)狀相關(guān)報(bào)道分別位列第三第四,占比分別是6.3%和5.32%。


文本分類后,想要進(jìn)一步研究不同類別下的文章主題,我們可以文本分類結(jié)果中選擇自己需要的類別,進(jìn)行二次分析(目前銳研·云文析文本分類結(jié)果支持以excel格式導(dǎo)出數(shù)據(jù)),再重新建立文本庫(kù)導(dǎo)入數(shù)據(jù)進(jìn)行主題分析。例如,第一財(cái)經(jīng)作為財(cái)經(jīng)類細(xì)分領(lǐng)域?qū)I(yè)媒體,在此次疫情中著重報(bào)道了哪些行業(yè),疫情對(duì)該行業(yè)的沖擊力如何?我們就可以抽取分類結(jié)果中【對(duì)行業(yè)影響】大類,導(dǎo)出數(shù)據(jù)后再導(dǎo)入云文析,進(jìn)行主題分析。(詳情可見(jiàn)——不會(huì)寫(xiě)代碼如何進(jìn)行大數(shù)據(jù)文本分析——主題分析篇

需要注意的是,文本分類結(jié)果的有效性取決于前期分類訓(xùn)練集的準(zhǔn)確性,在自定義分類訓(xùn)練集時(shí)需要人工對(duì)文本進(jìn)行準(zhǔn)確預(yù)判,后期機(jī)器學(xué)習(xí)才能在人工基礎(chǔ)上為您進(jìn)行精準(zhǔn)的批量文本數(shù)據(jù)處理。


銳研·云文析作為文本大數(shù)據(jù)分析與挖掘云平臺(tái),可應(yīng)用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、人工智能等技術(shù)對(duì)大規(guī)模文本數(shù)據(jù)進(jìn)行分析挖掘,并呈現(xiàn)可視化分析結(jié)果。今后,銳研團(tuán)隊(duì)會(huì)分享更多社會(huì)科學(xué)研究相關(guān)實(shí)用工具及案例,希望此文能為您提供一些幫助。


疫情期間,銳研云文析開(kāi)放個(gè)人用戶注冊(cè),有相關(guān)研究意向,歡迎掃描下方二維碼聯(lián)系我們的官方客服,為您開(kāi)通更多權(quán)限。

發(fā)表評(píng)論
評(píng)論通過(guò)審核后顯示。
  銳研中國(guó)
移動(dòng)訪問(wèn)