在文本挖掘中,我們經(jīng)常有文檔集合,例如博客文章或新聞文章,我們希望將它們分成自然組,以便我們理解它們。主題建模是一種對(duì)此類(lèi)文檔進(jìn)行分類(lèi)的方法。在本視頻中,我們介紹了潛在狄利克雷分配LDA模型,并通過(guò)R軟件應(yīng)用于數(shù)據(jù)集來(lái)理解它。
視頻:文本挖掘:主題模型(LDA)及R語(yǔ)言實(shí)現(xiàn)分析游記數(shù)據(jù)
文本挖掘:主題模型(LDA)及R語(yǔ)言實(shí)現(xiàn)分析游記數(shù)據(jù)
時(shí)長(zhǎng)12:59
什么是主題建模?
主題建模是一種對(duì)文檔進(jìn)行無(wú)監(jiān)督分類(lèi)的方法,類(lèi)似于對(duì)數(shù)字?jǐn)?shù)據(jù)進(jìn)行聚類(lèi)。
一個(gè)文檔可以是多個(gè)主題的一部分,有點(diǎn)像模糊聚類(lèi)(或軟聚類(lèi)),其中每個(gè)數(shù)據(jù)點(diǎn)屬于多個(gè)聚類(lèi)。
簡(jiǎn)而言之,主題建模設(shè)想了一組固定的主題。每個(gè)主題代表一組單詞。主題建模 的目標(biāo)是以某種方式將所有文檔映射到主題,這樣每個(gè)文檔中的單詞大部分都被那些虛構(gòu)的主題捕獲。
主題建模的工具和技術(shù)將文本分類(lèi)或分類(lèi)為每個(gè)主題的單詞,這些是基于狄利克雷分布建模的。
什么是潛在狄利克雷分配?
潛在狄利克雷分配是一種無(wú)監(jiān)督算法,它為每個(gè)文檔為每個(gè)定義的主題分配一個(gè)值。
潛在是隱藏的另一個(gè)詞(即無(wú)法直接測(cè)量的特征),而狄利克雷是一種概率分布。
我們要從數(shù)據(jù)中提取的主題也是“隱藏主題”。它還有待被發(fā)現(xiàn)。它的用途包括自然語(yǔ)言處理 (NLP)和主題建模等。
這種方法遵循與我們?nèi)祟?lèi)相似的思維方式。這使得 潛在狄利克雷分配 更易于解釋?zhuān)⑶沂悄壳白盍餍械姆椒ㄖ?。不過(guò),其中最棘手的部分是找出主題和迭代的最佳數(shù)量。
不要將潛在狄利克雷分配與潛在判別分析(也稱(chēng)為 LDA)相混淆。潛在判別分析是一種有監(jiān)督的降維技術(shù),用于高維數(shù)據(jù)的分類(lèi)或預(yù)處理。
為什么要進(jìn)行主題建模?
主題建模提供了自動(dòng)組織、理解、搜索和總結(jié)大型電子檔案的方法。
它可以幫助解決以下問(wèn)題:
發(fā)現(xiàn)收藏中隱藏的主題。新聞提供者可以使用主題建模來(lái)快速理解文章或?qū)ο嗨莆恼逻M(jìn)行聚類(lèi)。另一個(gè)有趣的應(yīng)用是圖像的無(wú)監(jiān)督聚類(lèi),其中每個(gè)圖像都被視為類(lèi)似于文檔。
將文檔分類(lèi)為發(fā)現(xiàn)的主題。歷史學(xué)家可以使用 LDA通過(guò)分析基于年份的文本來(lái)識(shí)別歸類(lèi)為歷史上的重要事件相關(guān)的主題。
使用分類(lèi)來(lái)組織/總結(jié)/搜索文檔。基于 Web 的圖書(shū)館可以使用 LDA根據(jù)您過(guò)去的閱讀內(nèi)容推薦書(shū)籍。例如,假設(shè)一個(gè)文檔屬于主題 :食品、寵物狗和健康。因此,如果用戶查詢“狗糧”,他們可能會(huì)發(fā)現(xiàn)上述文檔是相關(guān)的,因?yàn)樗w了這些主題(以及其他主題)。我們甚至無(wú)需瀏覽整個(gè)文檔就能夠計(jì)算出它與查詢的相關(guān)性。
因此,通過(guò)注釋文檔,基于建模方法預(yù)測(cè)的主題,我們能夠優(yōu)化我們的搜索過(guò)程。
潛在狄利克雷分配及其過(guò)程
潛在狄利克雷分配是一種將句子映射到主題的技術(shù)。它根據(jù)我們提供給它的主題提取某些主題集。在生成這些主題之前,LDA 執(zhí)行了許多過(guò)程。
在應(yīng)用該過(guò)程之前,我們有一定的規(guī)則或假設(shè)。
主題建模的 LDA 假設(shè)有兩個(gè):
首先,每個(gè)文檔都是主題的混合體。我們想象每個(gè)文檔可能包含來(lái)自多個(gè)主題的特定比例的單詞。例如,在雙主題模型中,我們可以說(shuō)“文檔 1 是20%的主題A和80%的主題B,而文檔2是70% 的主題A和30%的主題B”。
其次,每個(gè)主題都是單詞的混合。例如,我們可以想象一個(gè)新聞的兩個(gè)主題模型,一個(gè)主題是“政治”,一個(gè)主題是“娛樂(lè)”。政治話題中最常見(jiàn)的詞可能是“主席”和“政府”,而娛樂(lè)話題可能由“電影”、“電視”和“演員”等詞組成。重要的是,單詞可以在主題之間共享;像“預(yù)算”這樣的詞可能會(huì)同時(shí)出現(xiàn)在兩者中。
LDA 是一種同時(shí)估計(jì)這兩者的數(shù)學(xué)方法:找到與每個(gè)主題相關(guān)聯(lián)的詞的混合,同時(shí)確定描述每個(gè)文檔的主題的混合。
并且,這些主題使用概率分布生成單詞。在統(tǒng)計(jì)語(yǔ)言中,文檔被稱(chēng)為主題的概率密度(或分布),而主題是單詞的概率密度(或分布)。
主題本身就是詞的概率分布。
這些是用戶在應(yīng)用 LDA 之前必須了解的假設(shè)。
LDA 是如何工作的?
LDA 有兩個(gè)部分:
屬于文檔的詞,我們已經(jīng)知道。
這屬于某個(gè)主題的詞或?qū)儆谀硞€(gè)主題的單詞的概率,我們需要計(jì)算。
找到后者的算法。
瀏覽每個(gè)文檔并將文檔中的每個(gè)單詞隨機(jī)分配給k個(gè)主題之一(k是預(yù)先選擇的)。
現(xiàn)在我們嘗試了解它的完整工作過(guò)程:
假設(shè)我們有一組來(lái)自某個(gè)數(shù)據(jù)集或隨機(jī)來(lái)源的文檔。我們決定要發(fā)現(xiàn)K 個(gè)主題,并將使用 LDA 來(lái)學(xué)習(xí)每個(gè)文檔的主題表示以及與每個(gè)主題相關(guān)聯(lián)的單詞。
LDA 算法循環(huán)遍歷每個(gè)文檔,并將文檔中的每個(gè)單詞隨機(jī)分配給 K 個(gè)主題中的一個(gè)。這種隨機(jī)分配已經(jīng)給出了所有文檔的主題表示和所有文檔的單詞分布以及所有主題的單詞分布。LDA 將遍歷每個(gè)文檔中的每個(gè)單詞以改進(jìn)這些主題。但是這些主題的表示并不合適。所以我們必須改進(jìn)這個(gè)限制。為此,對(duì)于每個(gè)文檔中的每個(gè)單詞和每個(gè)主題 T,我們計(jì)算:
文檔 d 中當(dāng)前分配給主題 T 的單詞的比例
主題 T 的分配在來(lái)自這個(gè)詞的所有文檔中的比例
將單詞重新分配給一個(gè)新主題,我們以P(主題 T | 文檔 D) 乘以 P(單詞| 主題 T)的概率選擇主題 T,這實(shí)質(zhì)上是,主題T生成的單詞的概率。在多次重復(fù)上一步之后,我們最終達(dá)到了一個(gè)大致穩(wěn)定的狀態(tài),即分配是可以接受的。最后,我們將每個(gè)文檔分配給一個(gè)主題。我們可以搜索最有可能被分配到某個(gè)主題的單詞。
我們最終得到了輸出,例如
·分配給每個(gè)主題的文檔
·主題的最常用關(guān)鍵詞
·由用戶來(lái)解釋這些主題。
兩個(gè)重要說(shuō)明:
·用戶必須決定文檔中存在的主題數(shù)量
·用戶必須解釋主題是什么
所以通常如果我們有文檔集合,我們想要生成一組主題來(lái)表示文檔,我們可以使用 LDA 來(lái)執(zhí)行它。因?yàn)?LDA 將通過(guò)遍歷每個(gè)文檔來(lái)訓(xùn)練這些文檔并將單詞分配給主題。但這不是一個(gè)循環(huán)過(guò)程。這里是一個(gè)學(xué)習(xí)過(guò)程。它將遍歷每個(gè)文檔中的每個(gè)單詞并應(yīng)用上面討論的公式。
R軟件?LDA?應(yīng)用
我們將嘗試通過(guò)R軟件將 LDA 應(yīng)用于數(shù)據(jù)來(lái)更簡(jiǎn)要地理解它。
越來(lái)越多的人愿意精神消費(fèi)。旅游不僅可以提升人們對(duì)外地環(huán)境和外地人文的認(rèn)知,也可以放松身心、愉悅心情,是一種受歡迎的精神消費(fèi)。
隨著國(guó)內(nèi)近些年來(lái)互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的人開(kāi)始線上消費(fèi),消費(fèi)感受的推薦成為了潮流。在各個(gè)旅游平臺(tái)上,越來(lái)越多的人愿意參與旅游目的地游玩感受的分享。
本文試圖從馬蜂窩旅游官網(wǎng)上就新疆這個(gè)旅游目的地游記進(jìn)行感知分析。
游記表現(xiàn)出多元復(fù)雜的情感
通過(guò)情感分析(也稱(chēng)為意見(jiàn)挖掘),用文本挖掘和計(jì)算機(jī)語(yǔ)言學(xué)來(lái)識(shí)別和提取原始資料中的主觀信息,分析主觀信息(例如觀點(diǎn),情感,態(tài)度,評(píng)估,情感等),以進(jìn)行提取,分析,處理,歸納和推理。
圖表1
通過(guò)數(shù)據(jù)分析可知,旅客對(duì)新疆整體上正向情感還是遠(yuǎn)高于負(fù)向情感,旅游群體對(duì)新疆旅游地區(qū)還是呈現(xiàn)出積極的肯定態(tài)度,如舒適、恬靜、賞心悅目、激動(dòng)、留戀等。從詞頻統(tǒng)計(jì)看出,自然風(fēng)光多,旅游對(duì)民族特色的較為關(guān)注,如:盆地、白云、沙漠、草原、南疆。當(dāng)然還有吃食,如“奶酪”等等。從結(jié)果也可以看到有少量的“失望”、“惆悵”等情感,通過(guò)游記我們發(fā)現(xiàn)風(fēng)景基本上滿足了旅客的需求,但是深層次的體驗(yàn)項(xiàng)目較少,新疆旅游景點(diǎn)間空間跨度大、路況條件差、行車(chē)時(shí)間長(zhǎng)、節(jié)假日擁堵排隊(duì)等。新疆旅游大部分都是景區(qū)內(nèi)的風(fēng)景,對(duì)于自然風(fēng)貌記錄偏少,規(guī)劃、人文旅游也偏少。情感分析可知,游客對(duì)風(fēng)景、美食都很滿意,有著更高的期待。?
哪些游記幫助人數(shù)最多
通過(guò)游記的內(nèi)容特點(diǎn)和幫助人數(shù),我們通過(guò)決策樹(shù)來(lái)判斷哪些游記的幫助人數(shù)最多,同時(shí)也發(fā)現(xiàn)大多數(shù)驢友的心里出行需求。
圖表2
樣本游記從游記篇幅、作者等級(jí)、人均花費(fèi)、旅行組合、出行天數(shù)等方面反映游記的特點(diǎn)。游記篇幅的大小和作者等級(jí)是影響幫助人數(shù)的最重要的因素,內(nèi)容詳盡的游記能幫助到更多的人,經(jīng)驗(yàn)老道的驢友的游記一般更有參考價(jià)值。旅行組合中家庭組合較少,赴疆游客以個(gè)人或朋友背包客徒步、自由行旅游為主,人均費(fèi)用在7k以下,出行天數(shù)小于12天。游記的幫助人數(shù)客觀地反映了驢友們旅游行程規(guī)劃的心理預(yù)期,同時(shí)會(huì)對(duì)其他旅游者的決策和對(duì)旅游目的地的營(yíng)銷(xiāo)產(chǎn)生重要影響。
游記話題情感認(rèn)知形象
接下來(lái)我們通過(guò)主題挖掘?qū)ふ矣斡浽掝}和表達(dá)情感之間的關(guān)系。
圖表3
從中可以看到有兩個(gè)主題是景點(diǎn)相關(guān),從關(guān)鍵詞中可以用看到驢友們關(guān)注比較多的景點(diǎn)是獨(dú)庫(kù)公路、天山、喀納斯、禾木、布爾津、五彩灘等?!靶陆薄ⅰ蔼?dú)庫(kù)公路”、“喀納斯”、“烏魯木齊”是游記樣本中共現(xiàn)頻率最高的詞,成為兩個(gè)重要的中心節(jié)點(diǎn)。通常情況下,距離中心節(jié)點(diǎn)越近,表示與兩個(gè)節(jié)點(diǎn)的關(guān)聯(lián)越緊密。由此可見(jiàn),語(yǔ)義網(wǎng)絡(luò)圖呈現(xiàn)出兩個(gè)較為明顯的趨勢(shì):一是“新疆”一詞輻射出的語(yǔ)義網(wǎng)絡(luò)除旅游景區(qū)外,更多地表現(xiàn)了游客對(duì)新疆“雪山”、“草原”、“景色”等旅游形象的整體情感感知:如“獨(dú)特”、“寧?kù)o”等,這與新疆對(duì)外旅游宣傳所采用的詞語(yǔ)相一致; 二是“烏魯木齊”、“風(fēng)景”一詞輻射出的語(yǔ)義網(wǎng)絡(luò)集合了更多與行程和旅游攻略相關(guān)的信息,如“酒店”、“機(jī)場(chǎng)”、“包車(chē)”、“自駕”等,從游客感知視角證實(shí)了新疆旅游的旅游攻略行程信息以及烏魯木齊作為重要的旅游集散中心在新疆旅游業(yè)發(fā)展中的地位。
本文摘自 :https://blog.51cto.com/t