<span id="qdxi5"></span>

      <rp id="qdxi5"></rp>

        八爪魚,百萬用戶信賴的網絡爬蟲工具

        Twitter數據采集以及情感分析方法

        作者:keven 發布時間:2019/9/19 18:53:32 461 人已閱讀

        摘要:本次研究的目的主要是使用Octoparse爬蟲工具抓取Twitter上關于唐納德·特朗普的相關推文。然后,我們使用python語言進行情感分析,以此來分析公眾對總統的看法。最后,我們使用Tableau Public進行可視化。

        我不是唐納德·特朗普(Donald Trump)的超級粉絲。嚴格說來,我一點也不喜歡他。然而,他的個人魅力是不容忽視的,他的名字一直占據著大多數報紙和社交媒體。人們對他的態度是戲劇性的和雙邊的。他的描述詞要么是非常積極的,要么是非常消極的,對于網絡搜集和情感分析來說,這是一些完美的材料。

        ?

        本次研究的目的主要是使用Octoparse爬蟲工具抓取Twitter上關于唐納德·特朗普的相關推文。然后,我們使用python語言進行情感分析,以此來分析公眾對總統的看法。最后,我們使用Tableau Public進行可視化。

        ?

        本文特別適合以下人群

        ?

        1、想了解如何采集社交媒體上的內容或者評論。

        2、想了解如何利用Python進行情感分析。

        ?

        首先我們打開Octoparse官網,下載官方最新版本,并按照指示完成注冊,登錄后,再打開內置的Twitter簡易模板。

        ?

        簡易采集模板

        ?

        采集的數據字段包括

        ?

        • 用戶名
        • 發布時間
        • 發布內容
        • 圖片鏈接
        • Tweet鏈接
        • 評論數,轉發數,點贊數

        ?

        首先在Twitter采集模板的關鍵詞參數中輸入"Donald Trump",然后點擊啟動采集就會自動采集數據,正如下圖所示,很簡單,我大概采集了1萬多條Twitter推文,你可以盡可能多的輸入關鍵詞,從而采集更多的推文,采集到推文數據后,將數據導出為文本文件,文件命名為"data.txt"。

        數據采集結果

        ?

        利用Python進行情感分析

        ?

        在開始之前,請確保您的電腦已經安裝Python開發環境以及文本編輯器,我文章中使用的是Python2.7 和 Notepad++文本編輯器。

        然后,我們使用了兩個情感關鍵詞列表組成的txt文件,來分析之前采集下來的Twitter信息,你可以在文末下載這兩個文件。

        這里的想法是把txt文件中的每個情感關鍵詞提取到list列表中,然后計算這些關鍵詞在每條推文中的頻率,最后我們把相應包含情感詞的推文給記錄下來。

        ?

        首先,把兩個txt文件中的積極和消費情感關鍵詞分別存儲在plist和nlist的列表中。

        ?python進行Twitter情感分析

        ?

        然后,對采集下來的Twitter推文進行數據清洗,處理掉所有特殊符號(標點和數字等),將每條推文數據保存到word_list列表中。

        ?python進行Twitter情感分析

        ?

        經過數據處理后,數據只包含清洗后的推文,讓我們更易進行數據分析。后續,我們會創建三個字典:wordcountdict, wordcountpositive, and wordcountnegative。

        ?python進行Twitter情感分析

        接下來,定義每個字典,如果在Twitter數據中出現相應的推文,則增加1,并儲存到wordcountdict字典中。

        ?

        接下來的話,確定每條推文是否包含積極或者消極的情感關鍵詞,如果包含了積極的情感關鍵詞,則wordcountpositive字典關鍵詞加1,否則保證一個相同的值。如果包含了消極的情感關鍵詞,wordcountnegative做相同處理。如果推文不包含任何積極或者消極關鍵詞,則不作任何處理。

        ?

        情感分析:消極還是積極

        ?

        通過運行上面的Python腳本,我得到了5352個消極關鍵詞以及3894個積極關鍵詞,保存在上面相應的列表中,然后打開Tableau,建立了一個氣泡圖,如下所示。如果你不知道如何利用Tableau建立氣泡圖,請點擊這里

        ?

        Tableau數據可視化

        ?

        由圖可以看出,很多積極關鍵詞都是片面的,只有404種積極關鍵詞被使用,最常見的話,例如“like”、“great”和“right”,大多數關鍵詞是基礎的并且偏口語化,如“wow”和“cool”,而使用的否定關鍵詞更加多樣化,他們大多十分正式并且高級,最常用的是“illegal”、“lies”、“racist”。其他詞語,如“delinquent”、“inflammatory”、“hypocrites”也是經常出現的。

        上面關鍵詞同時也說明支持者比反對者的教育水平更低,顯然,唐納德·特朗普在推特用戶中并不受歡迎。

        總結:

        在這篇文章中,我們談到了如何Octoparse軟件采集Twitter推文,我們還討論了如何進行數據清洗和使用Python對Twitter推文進行情感分析。對于代碼的完整版本,你可以在以下鏈接下載。

        ?

        (https://gist.github.com/octoparse/fd9e0006794754edfbdaea86de5b1a51)

        參考鏈接:

        1. https://medium.com/@datamonsters/text-preprocessing-in-python-steps-tools-and-examples-bf025f872908
        2. https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
        3. https://github.com/jeffreybreen/twitter-sentiment-analysis-tutorial-201107/blob/master/data/opinion-lexicon-English/positive-words.txt
        4. http://nohumanbeingisillegal.com/Home.html

        ?

        文章翻譯至:https://www.octoparse.com/blog/text-mining-and-sentiment-analysis-using-python

        作者:Ashley Weldon

        ?



        分享到: 更多

        企業試用

        天天色-www.色小姐,狠狠干,狠狠_干,久久综合,就要撸,我要色综合,