python杂谈
版權
創建虛擬環境 conda create -n your_env_name python=3.6.2 pip numpy matplotlib pandas sortedcontainers
conda克隆虛擬環境 conda create -n your_env_name --clone old_env_list
激活這個虛擬環境 source activate your_env_name
路徑書寫格式
windows系統中,’\’與’/’均可以在書寫路徑中使用,但在字符串里面\被作為轉義字符使用
網頁網址和linux、unix系統下一般都用’/‘
python在描述路徑時有兩種方式:
‘d:\a.txt’,轉義的方式 r’d:\a.txt’,聲明字符串不需要轉義問題1:其實python中文件的絕對路徑可以直接復制window的路徑,
如:
但是,其實你的絕對路徑正確,但是執行報錯,那么就是你文件名的問題,如:
C:\Users\Administrator\Desktop\python\t1.txt 這個路徑絕對會報錯,因為 \t被轉義了。python就會解析為C:\Users\Administrator\Desktop\python 1.txt 這個時候肯定會報錯的
若果你改成下面的寫法就不會報錯啦(推薦使用此寫法“/”,可以避免很多異常)
C:/Users/Administrator/Desktop/python/t1.txtpython中路徑查找匯總
os.getcwd()查看當前工作路徑 os.path.exists()判斷文件是否存在 os.rmdir()刪除文件或空文件夾 os.listdir()列出文件名sys.path 查詢程序運行時搜索的路徑一、創建分詞字典
1、準備詞典
創建一個dict.txt,然后寫入你的分詞,一個詞占一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。file_name 若為路徑或二進制方式打開的文件,則文件必須為 UTF-8 編碼。
2、編寫python代碼
在分詞前通過jieba.load_userdict(file_name)來加載分詞字典:
3、分詞對比
第一張,未添加字典
pytho結巴分詞
第二張:添加了字典
python使用結巴分詞(jieba)創建自己的詞典/詞庫
可以看出,我們更加明確了用戶的意圖,不處理我們識別為處理,這樣的事情在識別意圖的時候還是比較坑的!
二、使用add_word和suggest_freq
使用add_word(word, freq=None, tag=None)和del_word(word)可在程序中動態修改詞典。
使用suggest_freq(segment, tune=True)可調節單個詞語的詞頻,使其能(或不能)被分出來。
實現代碼:
實現的結果和上面的相同,所以不做過多的對比描述
注意:
add_word只是一次性的添加分詞字典,不是直接將內容添加到結巴庫中了;同時此方法的代碼可能比較多,所以感覺沒有方法一好
更多可以看一下:python結巴(jieba)分詞
總結
- 上一篇: 推荐:26种NLP练手项目(代码+数据)
- 下一篇: 中文情感分析语料库大全-带下载地址