输入法畅想
前段時間結識了兩位創業做輸入法的朋友,花了一個下午和他們暢聊了下輸入法,也開拓了下自己的思路,于是寫此博文以記之。
目前中國PC市場的輸入法基本上已經被搜狗壟斷了,剩下的就是QQ,谷歌,百度等幾家大公司的輸入法,當然也有拼音加加這種老牌輸入法的死忠粉絲,所以可以說PC市場的輸入法大局已定,沒有什么機會了。而眼下手機輸入法還是一片藍海,雖然搜狗、百度、QQ等手機輸入法都在攻城略地,但是仍然是大有可為的一片市場。
在國內輸入法之外,國外輸入法是一個更大的市場,在PC時代,國外拉丁文用戶可以不需要輸入法,直接在鍵盤上打字即可,但是在智能機時代,沒有了鍵盤,即使輸入英文也得用一款輸入法軟件才行。所以國外手機輸入法市場是一個比國內輸入法市場要大好幾倍的市場。
現在無論是在手機輸入法市場上風生水起的觸寶輸入法,還是能夠跨平臺的RIME輸入法,他們都有一個共同的特點,就是同一款輸入法軟件,只需要下載不同的詞庫,就可以實現不同的輸入法。也就是說輸入法軟件本身只是做了一個通用的框架,通過不同的配置文件和核心詞庫文件來實現不同語言,不同輸入方式。這是一個發展趨勢,以后輸入法可能都是這樣被統一。
在輸入方式上,中文的輸入最常見的就是拼音了,其次時五筆,然后就是些亂七八糟的各種國人發明的輸入方式。在臺灣流行的是注音輸入法和倉頡輸入法,其實就是對應大陸的拼音和五筆。英文或者說拉丁語系的輸入方式就簡單多了,常見的就是鍵盤上直接輸入,還有就是現在比較流行的滑動輸入Swype。之前看了吳軍老師的《數學之美》,里面也提到了輸入法,對于中文而言,拼音輸入才是更接近人本性的一種輸入方式,雖然現在的拼音輸入法重碼率高,導致輸入效率還不夠高,但從長遠來看,拼音輸入法必將打敗五筆輸入法。其實現在搜狗拼音已經做得很不錯了,整句整句的輸入,使得重碼的幾率低了很多。
說到搜狗拼音輸入法,這個目前大陸輸入法市場的老大,那么就必須要說到搜狗輸入法當年做得很成功的詞庫。輸入法的詞庫分為三部分:
- 核心詞庫
- 分類詞庫
- 用戶詞庫
核心詞庫是一個語言的核心,定義了最常用的詞匯,核心詞庫的好壞直接決定了輸入法的好壞。前面提到輸入法框架,只需要配上核心詞庫和輸入設置,就可以變成一個全新的輸入法。核心詞庫是對一個語言通用的,還記得當年谷歌輸入法出來的時候,就被搜狗告了,就是因為谷歌輸入法盜用了搜狗輸入法的核心詞庫。
分類詞庫(細胞詞庫)我不知道是不是搜狗輸入法的首創,但搜狗輸入法是做得最成功的。分類詞庫是對某個特定人群才使用得到的詞庫,默認情況下用戶是沒有分類詞庫的,用戶可以根據自己的情況下載對應的分類詞庫。比如筆者是四川人,搞計算機的,所以就會下載“計算機詞匯”,“四川地名”等分類詞庫。因為分類詞庫是針對特定人群的,所以對于一個北京的銷售人員來說,就沒必要下載筆者的這些分類詞庫。搜狗成功的將分類詞庫的創建使用眾包的方式交給用戶自己來完成,使得分類詞庫蓬勃發展,現在已經有27K+個詞庫了。
用戶詞庫是針對用戶個人而創建的詞匯列表,該詞庫只對用戶個人有用,對其他人來說,可能沒有任何意義。比如筆者在寫Email時經常會輸入朋友的姓名,綽號等,這些都是筆者的好朋友的姓名,綽號,不會存在于核心詞庫和細胞詞庫中,創建這樣的用戶詞庫對筆者下次輸入時非常有幫助,但是對于其他人來說,根本永遠不會輸入這些詞匯,或者對別人來說,這根本就不是詞匯。搜狗很好的將用戶輸入過的這些用戶詞庫記錄下來,然后同步到用戶賬號的服務器數據中,這樣既方便了用戶使用多臺電腦時詞庫同步的問題,也避免了重裝系統導致的數據丟失的問題。
憑借著對這三種詞庫的特點和其他優化,使得搜狗迅速占領了市場,接下來搜狗輸入法就發展其他各種花哨功能去了。畢竟當年大家的輸入法還是只能做到60分的時候,搜狗輸入法能夠做到90分,那就是極大的成功,現在大家都能做到90分了,接下來搜狗再大量投入也只能把90分做到95分,對普通用戶來說,改善不明顯,所以只能靠不斷的擴展新的功能來進一步擴大用戶群。
輸入法的競爭其實就是詞庫的競爭,畢竟現在輸入法框架已經很成熟,軟件上的差異越來越小,大家都能做到很高的正確率。核心詞庫是由專家仔細精挑細選出來的,適用與每個人;分類詞庫是通過眾包的方式,由各行各業的熱心人士統計篩選出來的,網上都可免費下載;個人詞庫是由用戶在使用輸入法的過程中自己創造出來的,具有一定的用戶粘性,使得用戶不愿更換其他輸入法。對于分類詞庫和個人詞庫,“深藍詞庫轉換”都給出了很好的解決方案,幫助用戶從一種輸入法切換成另一種輸入法。比如之前一直用搜狗輸入法,現在想換成谷歌輸入法,但是又覬覦搜狗輸入法的細胞詞庫,那么可以用深藍詞庫轉換將搜狗細胞詞庫轉換成谷歌拼音詞庫,導入谷歌拼音。對于個人詞庫,也是如此,只需要在搜狗輸入法中將個人詞庫備份,然后使用深藍詞庫轉換將備份文件轉換成谷歌拼音的詞庫導入即可。
雖然深藍詞庫轉換解決了輸入法切換的問題,但是還有一個擺在所有輸入法面前的問題,用戶詞庫從哪里來?必須讓用戶在第一次輸入時一個字一個字的選嗎?如果我之前用的輸入法沒有設置賬號同步到服務器,或者用戶詞庫丟失了,難道真的必須讓用戶再痛苦一會,一個字一個字的重新選。
用戶之前已經進行了大量輸入,比如用戶的QQ聊天記錄、Email,或者寫博客,QQ空間,寫微博、說說、心情、微信等,更或者用戶發表過很多論文,寫過書、網絡小說等;這些都是構建用戶詞庫的素材,如果我們能夠分析這些素材,那么就可以構建一個強大的用戶詞庫,使得用戶的輸入法更加個性化,輸入效率自然更高。
收集這些用戶詞庫的素材就是一個比較麻煩的事情,畢竟用戶輸入的地方太多了,然后就是進行解析,這需要對漢語進行分詞,這是個麻煩的事情,最后就是將解析后的語料進行處理,生成用戶詞庫。我想下一個項目能夠做做這一塊,畢竟這東西對很多人來說,是個好東西!
總結
- 上一篇: 褚时健:现在的年轻人太急了,我快90了还
- 下一篇: mybatis plus 新增,修改