【毕业设计_课程设计】基于 K-means 算法的校园微博热点话题发现系统(源码+论文)
文章目錄
- 0 前言
- 1 項目說明
- 2 開發環境
- 3 系統架構
- 4 研究結果
- 5 論文目錄
- 6 項目工程
0 前言
基于 K-means 算法的校園微博熱點話題發現系統
提示:適合用于課程設計或畢業設計,工作量達標,源碼開放
1 項目說明
微博由其 “短平快 ” 的信息能力和快速傳播能力 ,已廣泛流行于高校學生的常生活中。但微博上的負面輿情信息給社會 、學校和個人帶來巨大的危害 。由于微博的多而快特點 ,無法依賴人工對相關信息進行收集 、篩選和發掘熱點話題 。因此研究并開發校園微博熱點話題發現系統 ,對高校輿情工作有重要的意義。
本文從微博獨有的短文本特征及國內外相關微博研究出發,通過對校園微博進行分類處理后使 用K-means聚類算法對校園微博短文本聚類,并改進熱度計算公式,通過話題熱度提取校園微博熱點話題,實現對校園微博熱點話題的監控。本文通過幾個模塊設計并現了校園微博熱點話題發現系統,包括微博數據爬取模塊 、微博數據預處理模塊、微博熱點話題分析模塊、微博熱點話 題展示模塊等模塊。最后以廣州中醫藥大學的生 活類微博 — 廣中醫I棟為研究對象,對校園微博 各模塊功能及相關技術進行介紹,并對相關模塊進行測試驗證,分析校園微博熱點話題特點,總結系統的優點和不足,提出下一步改進的設想。
2 開發環境
- 硬件環境 : 內存 12G、 硬盤容量 : 100G、 CPU: 4 核
- 系統環境 : 64 位 U buntu16.04 系統
- 數據庫 : MySQL、 Redis
- 開發語言與工具 : Python、 Vim、 Pycharm
- 框架與相關庫 :Scikit-Learn、Flask、Numpy、Requets、Bea utifulSoup、 Celery、 Gunicorn
3 系統架構
校園微博輿情監控系統有四大模塊,分別是校園微博文本獲取模塊 、微博文本預處理模塊 、校園微博熱點話題發現模塊 、校園微博熱點話題展示模塊。
4 研究結果
本文以校園微博作為研究主體,結合微博的特點,通過研究熱點話題相關技術,實現了一套校園微博熱點話題發現系統。該系統主要由數據獲取、微博數據預處理、K-means 聚類分析等模塊組成。該系統為校園輿情人員及時發現熱點話題帶來了很大的幫助。
本文主要實現內容如下:
(1)使用Python爬蟲技術并發獲取微博頁面 ,并使用 Python相關庫快速提取微博文本內容 。
(2)觀察校園微博的特點和傳統文本的區別,根據校園微博短文本的特點進行數據預處理操作。
(3)針對于向量空間模型的高維度以及微博文本表示的稀疏性,通過改進的TF-IDF算法實現有效的降維和特征選擇,解決了VSM特征向量的稀疏性問題。
(4)針對于傳統K-means 算法存在的局部最優解問題,改進了 Kmeans 算法初始簇心選擇,提高了 K-means聚類的準確性 。
(5)根據校園微博的特點,改進了熱度計算的算法,提高了獲取熱點話題的準確性。
(6)實現熱點話題發現系統可通過可視化界面進行操作,方便輿情管理人員從界面上獲取熱點話題信息 。
5 論文目錄
摘 要
ABSTRACT
第 1 章 緒論
1.1 國內外研究現狀與意義
1.2 本文創新點
1.3 論文寫作思路
第 2 章 相關技術介紹
2.1 網絡爬蟲技術
2.2 中文分詞技術
2.3 特征選擇及權重計算
2.3.1 特征選擇
2.3.2 特征權重計算
2.4 文本表示
2.4.1 布爾模型
2.4.2 概率模型
2.4.3 向量空間模型
2.5 文本聚類算法
2.5.1 距離算法
2.5.2 K-means 聚類算法
2.5.3 二分 K-means 聚類算法
第 3 章 校園微博熱點話題發現系統設計與實現
3.1 系統設計目標及要求
3.1.1 系統設計目標
3.1.2 系統設計要求
3.2 系統詳細架構設計
3.3 系統功能模塊設計與實現
3.3.1 微博數據獲取模塊
3.3.2 微博文本預處理模塊
3.3.2 校園微博熱點話題發現模塊
第 4 章 系統功能測試
4.1 系統運行環境和參數
4.2 實驗數據及處理
4.3 系統可視化界面
4.3.1 數據獲取界面
4.3.2 熱點話題排行榜
4.3.3 熱點話題熱度直方圖
4.3.4 敏感詞展示
總結與展望
參考文獻
致謝
附錄
6 項目工程
總結
以上是生活随笔為你收集整理的【毕业设计_课程设计】基于 K-means 算法的校园微博热点话题发现系统(源码+论文)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【已解决】excel限制条件解除
- 下一篇: range