不會寫代碼如何進行大數(shù)據(jù)文本分析——主題分析篇
- 2020-03-31
- admin
上一期文章中,銳研團隊為大家介紹了不會寫代碼如何進行詞頻統(tǒng)計并生成詞云圖。(《不會寫代碼如何進行大數(shù)據(jù)文本分析——詞頻統(tǒng)計篇》)事實上,這只是大數(shù)據(jù)文本分析中的冰山一角,詞頻統(tǒng)計只是簡單地對文本內(nèi)容進行了描述性分析,屬于較為常規(guī)的數(shù)據(jù)分析,能揭示出一些問題,概括、表述事物狀況。簡單的描述性分析之后是更為深度的文本數(shù)據(jù)分析,從大量非結(jié)構(gòu)的數(shù)據(jù)中提煉出模式,也就是有用的信息或知識的半自動化過程。
該系列的文本分析介紹主要涉及文章內(nèi)容LDA主題模型分析、基于關(guān)鍵詞的主題抽取、主題分析、文本分類、詞向量/關(guān)聯(lián)詞分析。今天這一期文章,我們將以疫情期間采集到的近千條第一財經(jīng)相關(guān)報道為例,介紹文章內(nèi)容LDA主題模型分析的詳細教程。
一、什么是LDA主題模型
要解釋什么是LDA主題模型,由于它屬于概率主題模型的子類,首先要解釋概率主題模型。
概率主題模型(Statistical Topic Models)是一類從文本文檔中提取潛在語義信息的有效方法,基本原理是認為文檔是若干主題的混合概率分布,而每個主題又是一個關(guān)于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項方法當中,潛在狄利克雷分配模型(LDA model)是最為有效的模型之一。
LDA是一種典型的無監(jiān)督(也就是每段文本沒有標簽,我們事先不知道文本內(nèi)容)、基于統(tǒng)計學習的詞袋模型,即它認為一篇文本內(nèi)容是由一組詞構(gòu)成的一個集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文本可以包含多個主題,文本中每一個詞都由其中的一個主題生成。主題模型通過分析文本中的詞來發(fā)現(xiàn)文本中的主題、主題之間的聯(lián)系方式和主題的發(fā)展,通過主題模型可以使我們組織和總結(jié)無法人工標注的海量文本。
二、LDA主題模型與人工編碼的區(qū)別
在人大新聞系RUC新聞坊的報道《2286篇肺炎報道觀察:誰在新聞里發(fā)聲?》中,研究者梳理了新冠肺炎疫情相關(guān)的2286條原創(chuàng)報道,參照趙亞男(2015)針對西方媒體對埃博拉疫情的報道研究中對報道內(nèi)容的分類,將報道主題進行事先分類,最終通過人工編碼的方式對報道內(nèi)容進行了分析。
利用傳統(tǒng)人工編碼可以對小批量文本內(nèi)容進行主題分析,前提是需要在分析前人工設(shè)定好主題類目,以及訓練一批具備專業(yè)素養(yǎng)的編碼員。這和LDA模型的邏輯其實是恰恰相反的。傳統(tǒng)人工編碼需要事先建立規(guī)則,再對每一篇文本進行編碼;而LDA模型則是一種典型的“無監(jiān)督學習”(也就是每段文本沒有標簽,我們事先不知道文本內(nèi)容)、基于復雜算法的模型。
換句話說,對文本內(nèi)容沒有事先了解的情況下,也可以通過建構(gòu)LDA主題模型對海量文本進行主題分析。
三、如何實現(xiàn)主題分析
了解了什么是LDA主題模型后,我們回到需要研究的問題上,不會寫代碼,如何進行大數(shù)據(jù)分析?在這里,我們依然以爬取到的來自第一財經(jīng)官網(wǎng)新冠肺炎疫情相關(guān)板塊的文章為例,為大家介紹如何使用銳研云文析平臺對文本內(nèi)容進行主題分析。
數(shù)據(jù)采集的時間區(qū)間為2019.12.31~2020.2.20,共計1733篇,包括原創(chuàng)及轉(zhuǎn)載。采集的字段為標題、作者、來源、摘要、內(nèi)容以及發(fā)布日期。最終得到的數(shù)據(jù)如下:
Step 1 導入數(shù)據(jù)
首先我們將數(shù)據(jù)導入文本庫,并對文本進行了數(shù)據(jù)清洗(見上期),在分析模塊中選擇【主題分析】


Step 2 建立主題分析
LDA模型的主題數(shù)需要人工來確定,云文析平臺支持用戶自定義主題參數(shù),進行不同嘗試后選出最佳主題數(shù)。我們分別嘗試了將主題數(shù)定義為5、8、10,進行了主題分析。

Step 3 提煉主題
為了確保分類的準確性,我們對不同數(shù)量的主題分類進行了對比,通過以下兩個標準來判斷該分類是否合理:
(1)主題的關(guān)鍵詞是否能夠有明顯的區(qū)分
(2)每個文章至少與一個主題有比較高的對應關(guān)系
以主題數(shù)量為5時得到的分類結(jié)果為例,如下圖所示:

主題分類數(shù)為5時的文本概率
然而,當主題分類數(shù)分別為8和10時,每篇文章在其中一個主題下的概率比較小,很多甚至只有0.2、0.3不等,不能明顯區(qū)分該文章主題:
主題分類數(shù)為8時的文本概率
主題分類數(shù)為10時的文本概率
通過上述對比可知,當主題分類數(shù)為5時分類結(jié)果最優(yōu),我們對分析結(jié)果進行了提煉,結(jié)合財經(jīng)類媒體的特性,我們認為,以下五類主題能夠較為全面地概括此次疫情期間新聞報道:
主題1-疫情對經(jīng)濟的影響;
主題2-企業(yè)生產(chǎn)情況;
主題3-疫情現(xiàn)狀;
主題4-中國對新型冠狀病毒的臨床研究情況;
主題5-救援物資情況。
各主題分類比例
如果想要對主題分類結(jié)果做進一步分析,云文析還支持導出文本概率詳情:
由于本次主題分析數(shù)據(jù)來源于第一財經(jīng)官網(wǎng)新冠肺炎疫情相關(guān)板塊,采集的時間區(qū)間為2019.12.31~2020.2.20,我們想要進一步分析不同報道主題隨著時間的推移,每天的新聞報道情況如何。根據(jù)導出的文本概率詳情文件,結(jié)合文本發(fā)布時間,我們在excel里對不同主題的新聞報道情況做了數(shù)量和比例上的分析,具體如下:
各主題新聞報道數(shù)量變化趨勢
各主題新聞報道占比變化趨勢
由于1月20日前疫情相關(guān)新聞報道數(shù)量較小,我們選擇了1月20日之后的數(shù)據(jù),可以看出,主題1-疫情對經(jīng)濟的影響,隨著武漢封城之后新聞報道量逐步增加;主題5-救援物資,前期關(guān)注較多,后期增幅平緩,但也保持著持續(xù)的關(guān)注。
—————————————————————————————————————————————————
銳研·云文析作為文本大數(shù)據(jù)分析與挖掘云平臺,可應用自然語言處理、機器學習、人工智能等技術(shù)對大規(guī)模文本數(shù)據(jù)進行分析挖掘,并呈現(xiàn)可視化分析結(jié)果。今后,銳研團隊會分享更多數(shù)據(jù)分析相關(guān)實用工具及案例,希望此文能為您提供一些幫助。
疫情期間,銳研云文析開放個人用戶注冊,有相關(guān)研究意向,歡迎掃描下方二維碼聯(lián)系我們的官方客服,為您開通更多權(quán)限。銳研·云文析網(wǎng)址:https://wx.ringdata.com
- 上海萌泰數(shù)據(jù)科技助力湘南學院教育創(chuàng)新,李軍博士主講《作為研究方法的人工智能》
- 上海市社會工作研究會2024年學術(shù)年會暨第二屆長三角金融社會工作論壇在滬舉行
- 人工智能如何改變社會科學的面貌?——AI與社會科學的學術(shù)對話紀實(下)
- 人工智能如何改變社會科學的面貌?——AI與社會科學的學術(shù)對話紀實(上)
- 校企協(xié)同 | 浙江越秀外國語學院到訪上海萌泰數(shù)據(jù)
- 2024年(第十六屆)國際數(shù)據(jù)挖掘與應用統(tǒng)計研究會年會在哈爾濱商業(yè)大學成功舉辦
- 全面深化改革與中國社會學新征程:中國社會學會2024年學術(shù)年會在哈爾濱工程大學舉行