精品精品国产理论在线 - 全国亚洲最大的av网站久久久 - 国产不卡视频一区二区三区四区 - 亚洲一区二区观看播放

不會寫代碼如何進行大數(shù)據(jù)文本分析——主題分析篇

2020-03-31
admin
摘要:今天這一期文章,我們將以疫情期間采集到的近千條第一財經(jīng)相關(guān)報道為例,介紹文章內(nèi)容LDA主題模型分析的詳細教程。

上一期文章中,銳研團隊為大家介紹了不會寫代碼如何進行詞頻統(tǒng)計并生成詞云圖。(《不會寫代碼如何進行大數(shù)據(jù)文本分析——詞頻統(tǒng)計篇》)事實上,這只是大數(shù)據(jù)文本分析中的冰山一角,詞頻統(tǒng)計只是簡單地對文本內(nèi)容進行了描述性分析,屬于較為常規(guī)的數(shù)據(jù)分析,能揭示出一些問題,概括、表述事物狀況。簡單的描述性分析之后是更為深度的文本數(shù)據(jù)分析,從大量非結(jié)構(gòu)的數(shù)據(jù)中提煉出模式,也就是有用的信息或知識的半自動化過程。


該系列的文本分析介紹主要涉及文章內(nèi)容LDA主題模型分析、基于關(guān)鍵詞的主題抽取、主題分析、文本分類、詞向量/關(guān)聯(lián)詞分析。今天這一期文章,我們將以疫情期間采集到的近千條第一財經(jīng)相關(guān)報道為例,介紹文章內(nèi)容LDA主題模型分析的詳細教程。


一、什么是LDA主題模型


要解釋什么是LDA主題模型,由于它屬于概率主題模型的子類,首先要解釋概率主題模型。

 

概率主題模型(Statistical Topic Models)是一類從文本文檔中提取潛在語義信息的有效方法,基本原理是認為文檔是若干主題的混合概率分布,而每個主題又是一個關(guān)于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項方法當中,潛在狄利克雷分配模型(LDA model)是最為有效的模型之一。

 

LDA是一種典型的無監(jiān)督(也就是每段文本沒有標簽,我們事先不知道文本內(nèi)容)、基于統(tǒng)計學習的詞袋模型,即它認為一篇文本內(nèi)容是由一組詞構(gòu)成的一個集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文本可以包含多個主題,文本中每一個詞都由其中的一個主題生成。主題模型通過分析文本中的詞來發(fā)現(xiàn)文本中的主題、主題之間的聯(lián)系方式和主題的發(fā)展,通過主題模型可以使我們組織和總結(jié)無法人工標注的海量文本。


二、LDA主題模型與人工編碼的區(qū)別


在人大新聞系RUC新聞坊的報道《2286篇肺炎報道觀察:誰在新聞里發(fā)聲?》中,研究者梳理了新冠肺炎疫情相關(guān)的2286條原創(chuàng)報道,參照趙亞男(2015)針對西方媒體對埃博拉疫情的報道研究中對報道內(nèi)容的分類,將報道主題進行事先分類,最終通過人工編碼的方式對報道內(nèi)容進行了分析。

 

利用傳統(tǒng)人工編碼可以對小批量文本內(nèi)容進行主題分析,前提是需要在分析前人工設(shè)定好主題類目,以及訓練一批具備專業(yè)素養(yǎng)的編碼員。這和LDA模型的邏輯其實是恰恰相反的。傳統(tǒng)人工編碼需要事先建立規(guī)則,再對每一篇文本進行編碼;而LDA模型則是一種典型的“無監(jiān)督學習”(也就是每段文本沒有標簽,我們事先不知道文本內(nèi)容)、基于復雜算法的模型。


換句話說,對文本內(nèi)容沒有事先了解的情況下,也可以通過建構(gòu)LDA主題模型對海量文本進行主題分析。


三、如何實現(xiàn)主題分析


了解了什么是LDA主題模型后,我們回到需要研究的問題上,不會寫代碼,如何進行大數(shù)據(jù)分析?在這里,我們依然以爬取到的來自第一財經(jīng)官網(wǎng)新冠肺炎疫情相關(guān)板塊的文章為例,為大家介紹如何使用銳研云文析平臺對文本內(nèi)容進行主題分析。

 

數(shù)據(jù)采集的時間區(qū)間為2019.12.31~2020.2.20,共計1733篇,包括原創(chuàng)及轉(zhuǎn)載。采集的字段為標題、作者、來源、摘要、內(nèi)容以及發(fā)布日期。最終得到的數(shù)據(jù)如下:



Step 1 導入數(shù)據(jù)


首先我們將數(shù)據(jù)導入文本庫,并對文本進行了數(shù)據(jù)清洗(見上期),在分析模塊中選擇【主題分析】



Step 2 建立主題分析


LDA模型的主題數(shù)需要人工來確定,云文析平臺支持用戶自定義主題參數(shù),進行不同嘗試后選出最佳主題數(shù)。我們分別嘗試了將主題數(shù)定義為5、8、10,進行了主題分析。



Step 3 提煉主題


為了確保分類的準確性,我們對不同數(shù)量的主題分類進行了對比,通過以下兩個標準來判斷該分類是否合理:

(1)主題的關(guān)鍵詞是否能夠有明顯的區(qū)分

(2)每個文章至少與一個主題有比較高的對應關(guān)系

 

以主題數(shù)量為5時得到的分類結(jié)果為例,如下圖所示:

如圖所示,主題數(shù)量為5時,分類結(jié)果區(qū)域分為三部分,【主題文本數(shù)量統(tǒng)計圖】中點擊柱狀圖可查看各主題文本數(shù)量;在【分析結(jié)果】中,各主題分類結(jié)果下系統(tǒng)提供的關(guān)鍵詞之間沒有大量重復關(guān)鍵詞,能夠較直觀的概括出主題;同時,通過查看【文本概率詳情】可以發(fā)現(xiàn),每一篇文章都有一個主題概率最高的得分,且大部分都大于0.5,能夠較明顯地區(qū)分該文章主題。


主題分類數(shù)為5時的文本概率


然而,當主題分類數(shù)分別為8和10時,每篇文章在其中一個主題下的概率比較小,很多甚至只有0.2、0.3不等,不能明顯區(qū)分該文章主題:

主題分類數(shù)為8時的文本概率

主題分類數(shù)為10時的文本概率



通過上述對比可知,當主題分類數(shù)為5時分類結(jié)果最優(yōu),我們對分析結(jié)果進行了提煉,結(jié)合財經(jīng)類媒體的特性,我們認為,以下五類主題能夠較為全面地概括此次疫情期間新聞報道:

主題1-疫情對經(jīng)濟的影響;

主題2-企業(yè)生產(chǎn)情況;

主題3-疫情現(xiàn)狀;

主題4-中國對新型冠狀病毒的臨床研究情況;

主題5-救援物資情況。


各主題分類比例


如果想要對主題分類結(jié)果做進一步分析,云文析還支持導出文本概率詳情:


由于本次主題分析數(shù)據(jù)來源于第一財經(jīng)官網(wǎng)新冠肺炎疫情相關(guān)板塊,采集的時間區(qū)間為2019.12.31~2020.2.20,我們想要進一步分析不同報道主題隨著時間的推移,每天的新聞報道情況如何。根據(jù)導出的文本概率詳情文件,結(jié)合文本發(fā)布時間,我們在excel里對不同主題的新聞報道情況做了數(shù)量和比例上的分析,具體如下:

各主題新聞報道數(shù)量變化趨勢


各主題新聞報道占比變化趨勢



由于1月20日前疫情相關(guān)新聞報道數(shù)量較小,我們選擇了1月20日之后的數(shù)據(jù),可以看出,主題1-疫情對經(jīng)濟的影響,隨著武漢封城之后新聞報道量逐步增加;主題5-救援物資,前期關(guān)注較多,后期增幅平緩,但也保持著持續(xù)的關(guān)注。


—————————————————————————————————————————————————

銳研·云文析作為文本大數(shù)據(jù)分析與挖掘云平臺,可應用自然語言處理、機器學習、人工智能等技術(shù)對大規(guī)模文本數(shù)據(jù)進行分析挖掘,并呈現(xiàn)可視化分析結(jié)果。今后,銳研團隊會分享更多數(shù)據(jù)分析相關(guān)實用工具及案例,希望此文能為您提供一些幫助。


疫情期間,銳研云文析開放個人用戶注冊,有相關(guān)研究意向,歡迎掃描下方二維碼聯(lián)系我們的官方客服,為您開通更多權(quán)限。銳研·云文析網(wǎng)址:https://wx.ringdata.com

發(fā)表評論
評論通過審核后顯示。
  銳研中國
移動訪問