深蓝词库转换1.9发布——支持英库拼音、搜狗bin格式、FIT、中州韵等
經過了3個多月的沉寂,今天深藍詞庫轉換終于迎來了1.9版。這次版本升級主要包含了以下新特性:
一、支持微軟英庫Engkoo拼音輸入法。
微軟英庫(Engkoo)拼音輸入法是微軟新推出適用于Win8的輸入法,雖然還在Beta階段,但是發展比較迅猛,最近的版本中已經支持文本詞庫的導入,所以想嘗鮮使用英庫輸入法的同學們不用擔心你之前使用的QQ拼音或者搜狗拼音的積累了那么久的詞庫無法在英庫輸入法中使用。
深藍此刻轉換能夠支持將各種詞庫文件轉換為英庫拼音輸入法的詞庫。杯具的是Engkoo拼音輸入法一次只支持10000條詞條,所以如果詞條數據比較大的話,那么就需要分割轉換后的詞庫文件,每個詞庫文件10000條,然后再依次導入。希望接下來的Engkoo輸入法能夠取消該限制。
二、新增文件分割功能,可以按照設定的詞條行數、文件大小或者字符個數進行分割。
這個功能主要是針對Engkoo拼音輸入法的一次只能導入10000條詞條的限制而做的,我在搜狗拼音下有個人詞庫16W條,這Engkoo輸入法只支持其中的1W條顯然是不能滿足我的要求的,所以需要將生成的Engkoo詞庫進行分割。選擇幫助菜單下的“文件分割”選項,可以彈出文件分割窗口,選擇轉換而來的Engkoo詞庫,然后選擇按行數分割,每個文件1W行,然后就可以將該轉換而來的Engkoo詞庫分割成16個文件,如圖所示:
然后進入Engkoo輸入法,選擇“專業詞典”選項,一個個點擊“導入文本詞庫”即可將我原來搜狗拼音里面的詞庫轉換到英庫輸入法中。
三、支持搜狗拼音bin格式備份詞庫。
搜狗拼音雖然支持文本格式詞庫的導出,但是在其文本詞庫中不包含詞頻信息,所以我花了點時間對搜狗拼音輸入法的bin格式備份詞庫進行格式分析,終于實現了對其的解析。具體操作方法和普通詞庫轉換方式方式類似,先在搜狗拼音輸入法的設置面板的詞庫選項卡中選擇“詞庫備份”,單擊“執行該操作”按鈕,即可將當前的詞庫備份以bin格式備份到硬盤上。然后將該bin文件選擇到深藍詞庫轉換中,選擇詞庫源為“搜狗拼音備份詞庫bin”,目標選擇需要轉換的其他輸入法,然后單擊轉換按鈕即可完成bin詞庫的解析和轉換。
四、支持中州韻(小狼毫、鼠須管)輸入法。
中州韻輸入法引擎是一個跨平臺的開源輸入法引擎,在Linux上叫中州韻,在Windows下叫小狼毫,在Mac上叫鼠須管。軟件下載地址:http://code.google.com/p/rimeime/?
經過試用,這是一款非常不錯的輸入法,尤其是在Linux和Mac下其他好用的輸入法太少。我由于平時使用的是Win7,所以就以Windows下的小狼毫為例,說明如何將用戶詞庫轉換到小狼毫中。首先將深藍詞庫轉換中將目標選成“中州韻”,然后轉換并保存到硬盤上。
接下來是在Windows的托盤圖標中找到小狼毫的圖標,右擊選擇“用戶詞典管理”,然后選擇luna_pinyin,單擊“導入文本碼表”,選中剛才保存的文件,馬上就可以將我們的詞庫導入到小狼毫的詞庫中了。
該詞庫同樣可以導入到Mac版的鼠須管輸入法中,下載鼠須管的詞庫導入工具(http://code.google.com/p/rimeime/downloads/detail?name=rime_dict_manager_0.9.2_osx.zip&can=2&q=),然后按照導入工具的命令格式,將我們的搜狗拼音詞庫導入到鼠須管的命令為:
./rime_dict_manager –i luna_pinyin Sougou.txt
運行結果如圖所示,正確導入了我們的搜狗詞庫。
五、支持FIT輸入法。
FIT輸入法是Mac下非常出名的輸入法,由于我很少使用Mac,所以一直沒有涉及到這個輸入法。最近有人在項目網站上給出了FIT輸入法的詞庫文件,我就照貓畫虎,按照FIT詞庫的格式,實現了FIT輸入法詞庫的轉換。在Mac虛擬機上測試,能夠正常導入。在Mac的FIT輸入法的“輸入法設置”窗口中,選擇詞庫選項卡,然后單擊詞庫列表下的+按鈕,添加我們轉換而來的FIT詞庫,不一會兒即可把我們轉換的詞庫導入到FIT輸入法中,下圖是導入成功的FIT詞庫頁面:
?
需要注意的是,FIT對大數據量的詞庫導入支持不是很好,速度很慢,所以還是得需要前面提到的文件分割器,將用戶詞庫分割成多個文件,然后再依次導入。
六、增強自定義格式的導出功能,以支持更多的輸入法。
現在的五筆輸入法雖然沒有拼音輸入法那么流行,但是算下來還是有七八種常用的五筆輸入法,而且這些五筆輸入法也在持續更新并支持詞庫的導入導出,所有我也根據這些五筆輸入法詞庫的特點,增強了自定義格式的導出功能,實現了其詞庫的轉換。由于本軟件沒有五筆詞根的生成功能,所以對于不支持純漢字導入的五筆輸入法,可以先使用搜狗五筆或者QQ五筆,將轉換后的純文本詞庫導入,然后到處成帶五筆編碼的詞庫,再導入到其他五筆輸入法中。
- 小鴨五筆本身支持存文本詞庫的導入到五筆輸入法中,小鴨五筆也支持拼音詞庫,不過其格式與其他輸入法不同,一個詞的各個字的拼音之間是沒有間隔的,所以我在自定義的格式中加入了拼音之間無分隔符的支持。
- 萬能五筆不支持純文本詞庫的導入,只支持“編碼 漢字”這種格式的詞庫。
- 光速五筆輸入法,感覺應該和萬能五筆是同一個東西,界面非常類似,本機測試導入詞庫有Bug,無法導入自己導出的詞庫。
- 搜狗五筆,支持純文本詞庫導入。
- QQ五筆,支持純文本詞庫導入。
- 萬能五筆,五筆支持“編碼 漢字”這種格式的詞庫,拼音詞庫支持“拼音無分隔符 漢字”格式的詞庫,可以通過自定義格式導入。
七、優化代碼,修改Bug。
從代碼級整合了QQ分類詞庫專用的Zip壓縮算法所用的庫,使得最終程序就只有“深藍詞庫轉換.exe”這么一個文件,不會有其他依賴的dll文件。修改了發現的Bug,對文件類型過濾、文件格式感知進行了優化。
最后,深藍詞庫轉換軟件是一個免費開源的軟件,軟件本身無任何收費和使用限制。本次更新為深藍詞庫轉換增加了個捐贈選項,感謝大家一直以來的支持,如果您覺得深藍詞庫轉換能夠給您的生活帶來了極大的方便,可以通過Paypal或者支付寶捐贈該軟件。
深藍詞庫轉換1.9下載
總結
以上是生活随笔為你收集整理的深蓝词库转换1.9发布——支持英库拼音、搜狗bin格式、FIT、中州韵等的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 吴晓波:预见2021(跨年演讲 —— 0
- 下一篇: mysql 切换用户_mysql+kee