python实现英文新闻摘要自动提取_用python机器学习实现新闻关键词的抽取
隨著互聯網的蓬勃發展,手機移動端和網絡的逐漸普及,傳播的權利下放到每個公民,“公民新聞”應運而生,每個公民成為記者,都能通過網絡發出自己的聲音。隨著新聞傳播門檻的降低,網上的信息愈加魚龍混雜,如何有效在海量信息中獲取自己感興趣的和需要的成為另一個難題,如何在大量的新聞文本中提取出關鍵信息變得越來越重要。本案例將使用Python實現新聞關鍵詞的提取。
機器學習競賽優勝解決方案實戰?wx7dcc75bb5e655e9b.h5.xiaoe-tech.com首先介紹什么是關鍵詞?
1.關鍵詞
關鍵詞是指能反映文本主題或者意思的詞語,如論文中的Keyword字段。大多數人寫文章的時候,不會像寫論文的那樣明確的指出文章的關鍵詞是什么,關鍵詞自動標注任務正是在這種背景下產生的。
目前,關鍵詞自動標注方法分為兩類:
(1)關鍵詞分配,預先定義一個關鍵詞詞庫,對于一篇文章,從詞庫中選取若干詞語作為文章的關鍵詞;
(2)關鍵詞抽取,從文章的內容中抽取一些詞語作為關鍵詞。
2.應用場景
在文獻檢索初期,由于當時還不支持全文搜索,關鍵詞就成為了搜索文獻的重要途徑。隨著網絡規模的增長,關鍵詞成為了用戶獲取所需信息的重要工具,從而誕生了如Google、百度等基于關鍵詞的搜索引擎公司。
關鍵詞自動標注技術在推薦領域也有著廣泛的應用。如圖1所示,當用戶閱讀圖中左邊的新聞時,推薦系統可以給用戶推薦包含關鍵詞”Dropbox”、”云存儲”的資訊,同時也可以根據文章關鍵詞給用戶推薦相關的廣告。
關鍵詞可以作為用戶興趣的特征,從而滿足用戶的長尾閱讀興趣。傳統的信息訂閱系統一般使用類別或者主題作為訂閱的內容,如下圖所示。如果用戶想訂閱更細粒度的內容,這類系統就無能為力了。關鍵詞作為一種對文章更細粒度的描述,剛好可以滿足上述需求。
除了這些以外,關鍵詞還在文本聚類、分類、摘要等領域中有著重要的作用。比如在聚類時,將關鍵詞相似的幾篇文章看成一個類團可以大大提高K-means聚類的收斂速度。從某天所有新聞中提取出這些新聞的關鍵詞,就可以大致知道那天發生了什么事情。或者將某段時間中幾個人的微博拼成一篇長文本,然后抽取關鍵詞就可以知道他們主要在討論些什么話題。
3.現有問題與挑戰
文章的關鍵詞通常具有以下三個特點
· 可讀性。關鍵詞本身應該是有意義的詞或者短語。例如,“我們約會吧”是有意義的短語,而“我們”則不是。
· 相關性。關鍵詞必須與文章的主題相關。例如,一篇介紹巴薩在德比中輸給皇馬的新聞,其中可能順帶提到了“中超聯賽”這個關短語,這時就不希望這個短語被選取作為該新聞的關鍵詞。
· 覆蓋度。關鍵詞集合能對文章的主題有較好的覆蓋度,不能只集中在文章的某個主題而忽略了文章的其他主題。
從上述三個特點,可以看到關鍵詞標注算法的要求以及面臨的挑戰:
a. 新詞發現以及短語識別問題,怎樣快速識別出網絡上最新出現的詞匯;
b. 關鍵詞候選集合的問題,并不是文章中所有的詞語都可以作為候選;
c. 怎么計算候選詞和文章之間的相關性?
d. 如何覆蓋文章的各個主題?
關鍵詞分配算法需要預先定義一個關鍵詞詞庫,這就限定了關鍵詞候選范圍,算法的可擴展性較差,且耗時耗力;關鍵詞抽取算法是從文章的內容中抽取一些詞語作為標簽詞,當文章中沒有質量較高的詞語時,這類方法就無能為力了。
用Python作為工具,可以對海量文本進行機器學習和算法分析,更多案例詳見:
Python抽取新聞關鍵詞搭建模型教程簡介:
1. 任務目標與數據集介紹
2. 數據清理與預處理
3. 抽取數據基本特征
4. 分析文章與詞向量
5. 劃分權重
6. 候選詞統計特征
7. textrank特征提取
8. 候選詞相似度特征
9. 特征工程匯總
谷歌的自動駕駛汽車和機器人受到了很多媒體的關注,但該公司真正的未來是在機器學習領域,這種技術能使計算機變得更聰明,更個性化。-Eric Schmidt(Google董事長)
在當下數字社會,機器學習和數據分析已經成為我們生活的一部分,已經是很多系統的“動力系統”,從平凡到可以改變生活的所有。Python更像是一個工具,助力數據分析更加精準和高效 ,推動數字社會的發展。
總結
以上是生活随笔為你收集整理的python实现英文新闻摘要自动提取_用python机器学习实现新闻关键词的抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux 类似winscp_mac上有
- 下一篇: layui 怎么设置点击图片放大_lay