當前位置：首頁 > 编程语言 > python >内容正文

python

python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇

發布時間：2024/3/26 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

-----------------2017-01-22 20:21----------------

【單詞集已經更新】

【有知友提醒，使用Windows自帶的記事本打開會出現單詞為分割開來的情況，晚上回去重新處理一下，自己使用Notepad上是正常的換行分割，還望見諒】

學英語，無論目的何在，詞匯量總是一個繞不過去的坎，沒有足夠的詞匯量，都難以用文法來組詞造句。

前段時間，惡魔的奶爸提供了幾份偏向于各個領域的高頻詞匯，很是不錯。

最近用Python寫爬蟲入門教程的時候，碰到過幾個英文網站，便有了提煉一份網站英文單詞詞頻的念頭。

3000高頻單詞庫說明：
來源：Connecting China Connecting the World 全站4700+個網頁
剔除127個常見停用詞，剔除單詞長度為1的單詞，剔除網站英文名chinadaily。

我年紀還輕，閱歷不深的時候，我父親教導過我一句話，我至今還念念不忘。 “每逢你想要批評任何人的時候， ”他對我說，“你就記住，這個世界上所有的人，并不是個個都有過你擁有的那些優越條件。”
——《了不起的蓋茨比》

以下為3000高頻詞匯的提取過程。

1.爬取ChinaDaily全站網頁URL

def

2.請求爬取的URL并解析網頁單詞

# 解析網頁單詞并寫入文本文件 def resolve_html(url):wbdata = requests.get(url).contentsoup = BeautifulSoup(wbdata,'lxml')# 替換換行字符text = str(soup).replace('n','').replace('r','')# 替換<script>標簽text = re.sub(r'<script.*?>.*?</script>',' ',text)# 替換HTML標簽text = re.sub(r'<.*?>'," ",text)text = re.sub(r'[^a-zA-Z]',' ',text)# 轉換為小寫text = text.lower()text = text.split()text = [i for i in text if len(i) > 1 and i != 'chinadaily']text = ' '.join(text)print(text)with open("j:pythonwords.txt",'a+',encoding='utf-8') as file:file.write(text+' ')print("寫入成功") if __name__ == '__main__':pool = Pool(processes=2)pool.map_async(resolve_html,urllist)pool.close()pool.join()print('運行完成')

3.對單詞文本文件進行詞頻處理

# 對單詞文本文件進行詞頻處理

結果為：

單詞總數

部分單詞及詞頻為：

('online', 8788) ('business', 8772) ('society', 8669) ('people', 8646) ('content', 8498) ('story', 8463) ('multimedia', 8287) ('cdic', 8280) ('travel', 7959) ('com', 7691) ('cover', 7679) ('cn', 7515) ('hot', 7219) ('shanghai', 7064) ('first', 6941) ('photos', 6739) ('page', 6562) ('years', 6367) ('paper', 6289) ('festival', 6188) ('offer', 6064) ('sports', 6025) ('africa', 6008) ('forum', 5983)

最后得到一個包含3000個高頻詞匯的txt文本文件，大家可以將其導入到各大單詞軟件的單詞本中。

總結

以上是生活随笔為你收集整理的python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： OpenCV4.5.4 DNN人脸识别模
下一篇： js获得相同css的第几个,vue,cs

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇

總結