Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党
生活随笔
收集整理的這篇文章主要介紹了
Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Rstudio 爬蟲 文本分詞個性化詞云設計
-
目錄
1、環境準備,加載依賴
2、rvest 爬蟲,數據爬取
3、jiebaR用于分詞,詞頻統計
4、wordcloud2 結果可視化
===============================================================================================================================================
1、環境準備,加載依賴
2、數據爬取
3、數據清洗
4、詞云設計
install.packages("wordcloud2") install.packages("rvest") install.packages("jiebaR") library(wordcloud2) library(rvest) library(jiebaR)# 開始爬蟲 url<-'http://www.gov.cn/premier/2017-03/16/content_5177940.htm' #讀取數據,規定編碼 web<-read_html(url,encoding="utf-8") position<-web %>% html_nodes("div.pages_content") %>% html_text()# jieba分詞,詞頻統計 #初始化分詞引擎并加載停用詞。 engine_s<-worker(stop_word = "stopwords.txt") #分詞 seg<-segment(position,engine_s) #統計詞頻 f<-freq(seg) #根據詞頻降序排列 f<-f[order(f[2],decreasing=TRUE),]#基于wordcloud2包進行可視化 #總共有2000多個詞,為了顯示效果,我只提取前150個字 f2<-f2[1:150,] #形狀設置為一顆五角星 wordcloud2(f2, size = 0.8 ,shape='star')
?
轉載于:https://www.cnblogs.com/RHadoop-Hive/p/8929904.html
總結
以上是生活随笔為你收集整理的Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 儿童吃什么食物可以大补维生素d?
- 下一篇: 空气悬挂多少钱啊?