宗成庆《自然语言理解》第5章作业
生活随笔
收集整理的這篇文章主要介紹了
宗成庆《自然语言理解》第5章作业
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
5-2. 利用漢語切分和標注語料(注意版權的合法性),嘗試用bi-gram 實現一個簡單的漢語自動分詞程序。
#------------------------------------------------------------------------------- # Name: n_gram切分中文 # Purpose: 自然語言處理第5章作業 # 水平有限,僅做參考 # Author: nkenen # # Created: 22/02/2020 # Copyright: (c) Administrator 2020 # Licence: <your licence> #------------------------------------------------------------------------------- import resymbol = ',.!?。,?!0123456789qwertyuiopasdfghjklzxcvbnmQWERTYUIOPASDFGHJKLZXCVBNM'#本程序并不是有用的只是將已標注好的1998語料庫給轉變成無標注的 def Makenomarkedcorpus():file = open('F:/自然語言處理/1980pd.txt','w',encoding='utf-8')filer = open('F:/自然語言處理/199801_people_s_daily.txt','r',encoding='utf-8',errors='ignore')for line in filer:str = ''flag = 0i=0總結
以上是生活随笔為你收集整理的宗成庆《自然语言理解》第5章作业的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 营业额统计
- 下一篇: java二维数组水平翻转,C 语言 利用