计算机论文北大核心,北大计算机(毕业论文).doc
北大計算機(畢業論文)
PAGE
PAGE 31
本科學位論文
題目: 一種動態文本關聯模型的設計與實現
The Design and Implement of Dynamic Text-
Association Model
姓 名: ***
學 號: *******
院 系: 信息科學技術學院
專 業: 計算機科學與技術
指導教師: ******
北京大學本科畢業論文導師評閱表
學 號
學生姓名
論文成績
學院(系)
信息科學技術學院
專 業
計算機科學與技術
導師姓名
導師單位
職 稱
論文題目
一種動態文本關聯模型的設計與實現
The Design and Implement of Dynamic Text-association Model
導師評語
(包含對論文的性質、難度、分量、綜合訓練等是否符合培養目標的目的等評價)
導師簽名:
年 月 日
版權聲明
任何收存和保管本論文各種版本的單位和個人,未經本論文作者同意,不得將本論文轉借他人,亦不得隨意復制,抄錄,拍照或以任何方式傳播。否則,引起有礙作者著作權益之問題,將可能承擔法律責任。
摘 要
隨著互聯網的快速發展,人們越來越多地面臨著信息爆炸的問題。過多冗余的信息讓人們很難在海量的數據庫中挖掘出真正有意義的信息。此外,由于金融市場具有時效性,過期的信息非但沒有價值,反而會影響正常的數據挖掘操作。因此,為了保證和提高金融數據挖掘的質量,有必要對海量的文本進行動態的關聯操作。
本文在深入學習了關于文本操作的背景知識和應用工具后,分3部分完成動態文本關聯的操作。首先,利用網絡爬蟲得到文本庫,然后就文本庫中文章進行分詞處理,并在這一步驟中完成對文本的時間標記;其后,為更新的文本庫建立索引庫,利用倒排索引將文章按關鍵詞列表索引起來;然后,利用改進的Tf*Idf算法Tf*ENTROPY算法求出單篇文章的關鍵詞,再根據關鍵詞集合之間的交集判定文章與文章之間的關聯。以上步驟都建立在一個時間軸上進行,讓不同時刻的文本單獨隔離開。
經過實驗顯示,這種動態文本關聯模型保證了信息的時效性,會將新鮮的信息反饋給用戶;并且保證了結果的正確性,得到了良好的測試結果。
關鍵詞: 動態 文本關聯 倒排索引 Tf*ENTROPY
Abstract
With the rapid development of Internet, people become to face more and more information blooming problem. Because of redundant information, it is quite difficult to mine the valuable information in huge database. In addition, since financial market is influenced a lot by time, overdue information is not only useless, but also will badly affect the mining operation. So in order to enhance the quality of date-mining, it is necessary to conduct certain research on the topic of dynamic text-association.
In this passage, I present my design and realization of dynamic text-association model after learning relevant background knowledge and application tools. I divided the whole operation into 3 steps. First of all, I used web-reptile to get the information from internet, then divided the whole passages into individual words, and signed the passages with time ID;S
總結
以上是生活随笔為你收集整理的计算机论文北大核心,北大计算机(毕业论文).doc的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win8电脑设置怎么打开 打开Win8电
- 下一篇: ghost安装器怎么备份系统 Ghost