山东大学舆情分析系统项目结题总结
項目結題總結
- 一、項目背景
- 二、技術要點
- 三、功能介紹
- 1、服務器端
- (1)啟動服務器
- (2)后臺主系統(控制爬蟲、分詞、分析模塊)
- (3)關閉服務器
- 2、網頁端——未登錄
- (1)首頁
- (2)總覽
- (3)登錄 / 注冊
- 3、網頁端——用戶端
- (1)單個熱詞查詢
- (2)單個熱詞信息
- (3)熱詞相關網頁查詢
- (4)總覽——登陸后
- 4、網頁端——管理員端
- (1)熱詞管理
- (2)網頁管理
- (3)鏈接管理
- (4)用戶管理
- (5)增加管理員
- (6)管理后臺主系
- 四、Github項目地址
一、項目背景
對于一所高校來說一個好的風評有著十分重要的作用,擁有一個良好的口碑,能吸引更多的生源、引進更多的人才,學校的綜合素質能力也會因此提升,因此我們小組選擇了《山東大學輿情分析系統》這一題目,通過搜集百度新聞、央視新聞、今日頭條、齊魯網、新浪、網易新聞、微博、知乎等網站的有關信息,對搜集到的文本信息所進行的分詞、統計處理,將結果繪制成可視化的熱度詞條、情感傾向變化圖,并實時展示在網站上,以此來更直觀的了解山大的實時風評。
二、技術要點
在本項目中,我們主要選用python語言。
在爬蟲方面,我們采用Scrapy爬蟲框架,首先對上述若干帶有搜索引擎的入口網站進行一級爬取,該層主要爬取網頁中以“山東大學”為關鍵字的搜索結果
其次將對一級爬取中獲得的網頁鏈接進行二級爬取,該層主要爬取相關頁面中的“相關推薦”、評論等內容。
對于大部分網站中常見的反爬蟲技術,我們采用了請求頭隨機UA、資源延時下載、cookie保存狀態等來掩蓋我們的爬蟲,防止其被反爬蟲技術識別。
在分詞方面,我們采用的是python的pkuseg庫,并加入了我們自己生成的停用詞詞庫、保留詞詞典等,以進一步優化分詞結果。在情感分析方面,我們使用詞的情感傾向表,通過各個詞的權值對熱詞、評論進行情感分析。
在網頁展示方面,我們采用了Vue的前端和Django的后端,以便能與爬蟲和分詞模塊更好的兼容。
三、功能介紹
1、服務器端
(1)啟動服務器
我們的項目是在python的虛擬環境中運行,目前運行過程已經可以脫離編譯器。因此我們首先進入python虛擬環境,進入django項目目錄下,輸入:
python manage.py runserver 0.0.0.0:8080(2)后臺主系統(控制爬蟲、分詞、分析模塊)
- 后臺主系統將在服務器啟動時自動開啟
- 主系統將在每天凌晨4~5點開啟核心系統(爬蟲、分詞、分析模塊)
- 主系統可以使用以下命令:
- “start”:開啟主系統
- “stop” / “end”:關閉主系統
- “exit”:退出主系統
- ”help“:查看幫助信息
- 在核心系統運行時,無法關閉、退出主系統
(3)關閉服務器
關閉服務器前,需優先關閉主系統,再手動關閉服務器cmd窗口
2、網頁端——未登錄
(1)首頁
(2)總覽
(3)登錄 / 注冊
3、網頁端——用戶端
(1)單個熱詞查詢
(2)單個熱詞信息
(3)熱詞相關網頁查詢
(4)總覽——登陸后
4、網頁端——管理員端
(1)熱詞管理
(2)網頁管理
(3)鏈接管理
(4)用戶管理
(5)增加管理員
(6)管理后臺主系
四、Github項目地址
https://github.com/STK425/django_vue
總結
以上是生活随笔為你收集整理的山东大学舆情分析系统项目结题总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: uploadify3.1 php,Jqu
- 下一篇: JAVA电商商城系统