python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇
生活随笔
收集整理的這篇文章主要介紹了
python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
-----------------2017-01-22 20:21----------------
【單詞集已經更新】
【有知友提醒,使用Windows自帶的記事本打開會出現單詞為分割開來的情況,晚上回去重新處理一下,自己使用Notepad上是正常的換行分割,還望見諒】
學英語,無論目的何在,詞匯量總是一個繞不過去的坎,沒有足夠的詞匯量,都難以用文法來組詞造句。
前段時間,惡魔的奶爸提供了幾份偏向于各個領域的高頻詞匯,很是不錯。
最近用Python寫爬蟲入門教程的時候,碰到過幾個英文網站,便有了提煉一份網站英文單詞詞頻的念頭。
3000高頻單詞庫說明:
來源:Connecting China Connecting the World 全站4700+個網頁
剔除127個常見停用詞,剔除單詞長度為1的單詞,剔除網站英文名chinadaily。
——《了不起的蓋茨比》
以下為3000高頻詞匯的提取過程。
1.爬取ChinaDaily全站網頁URL
def2.請求爬取的URL并解析網頁單詞
# 解析網頁單詞并寫入文本文件 def resolve_html(url):wbdata = requests.get(url).contentsoup = BeautifulSoup(wbdata,'lxml')# 替換換行字符text = str(soup).replace('n','').replace('r','')# 替換<script>標簽text = re.sub(r'<script.*?>.*?</script>',' ',text)# 替換HTML標簽text = re.sub(r'<.*?>'," ",text)text = re.sub(r'[^a-zA-Z]',' ',text)# 轉換為小寫text = text.lower()text = text.split()text = [i for i in text if len(i) > 1 and i != 'chinadaily']text = ' '.join(text)print(text)with open("j:pythonwords.txt",'a+',encoding='utf-8') as file:file.write(text+' ')print("寫入成功") if __name__ == '__main__':pool = Pool(processes=2)pool.map_async(resolve_html,urllist)pool.close()pool.join()print('運行完成')3.對單詞文本文件進行詞頻處理
# 對單詞文本文件進行詞頻處理結果為:
單詞總數部分單詞及詞頻為:
('online', 8788) ('business', 8772) ('society', 8669) ('people', 8646) ('content', 8498) ('story', 8463) ('multimedia', 8287) ('cdic', 8280) ('travel', 7959) ('com', 7691) ('cover', 7679) ('cn', 7515) ('hot', 7219) ('shanghai', 7064) ('first', 6941) ('photos', 6739) ('page', 6562) ('years', 6367) ('paper', 6289) ('festival', 6188) ('offer', 6064) ('sports', 6025) ('africa', 6008) ('forum', 5983)最后得到一個包含3000個高頻詞匯的txt文本文件,大家可以將其導入到各大單詞軟件的單詞本中。
總結
以上是生活随笔為你收集整理的python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OpenCV4.5.4 DNN人脸识别模
- 下一篇: js获得相同css的第几个,vue,cs