国内可用语料库
(一) 國家語委
1國家語委現(xiàn)代漢語語料庫http://www.cncorpus.org/
現(xiàn)代漢語通用平衡語料庫現(xiàn)在重新開放網(wǎng)絡(luò)查詢了。重開后的在線檢索速度更快,功能更強(qiáng),同時提供檢索結(jié)果下載。現(xiàn)代漢語語料庫在線提供免費(fèi)檢索的語料約2000萬字,為分詞和詞性標(biāo)注語料。
2古代漢語語料庫http://www.cncorpus.org/login.aspx
網(wǎng)站現(xiàn)在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。同時,還提供了分詞、詞性標(biāo)注軟件、詞頻統(tǒng)計、字頻統(tǒng)計軟件,基于國家語委語料庫的字頻詞頻統(tǒng)計結(jié)果和發(fā)布的詞表等,以供學(xué)習(xí)研究語言文字的老師同學(xué)使用。
(二) 北京大學(xué)計算語言學(xué)研究所
1《人民日報》標(biāo)注語料庫http://www.icl.pku.edu.cn/icl_res/
《人民日報》標(biāo)注語料庫中一半的語料(1998年上半年)共1300萬字已經(jīng)通過《人民日報》新聞信息中心公開提供許可使用權(quán)。其中一個月的語料(1998年1月)近200萬字在互聯(lián)網(wǎng)上公布,供自由下載。
(三) 北京語言大學(xué)
漢語國際教育技術(shù)研發(fā)中心:HSK動態(tài)作文語料庫http://202.112.195.192:8060/hsk/login.asp
語言研究所:北京口語語料查詢系統(tǒng)(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
(四)臺灣中央研究院
中研院語料庫WWW版所有功能均開放使用,但為防主機(jī)資源耗用過劇及顧及數(shù)據(jù)傳輸之實際限制,暫以檢索結(jié)果為限制的條件:院內(nèi)檢索限兩萬行數(shù)據(jù),院外檢索限兩千行數(shù)據(jù)。
1現(xiàn)代漢語平衡語料庫http://www.sinica.edu.tw/SinicaCorpus/
專 門針對語言分析而設(shè)計的,每個文句都依詞斷開,并標(biāo)示詞類。語料的搜集也盡量做到現(xiàn)代漢語分配在不同的主題和語式上,是現(xiàn)代漢語無窮多的語句中一個代表性 的樣本。現(xiàn)有語料庫主要針對語言分析而設(shè)計,由中央研究院信息所、語言所詞庫小組完成,內(nèi)含有簡介、使用說明,現(xiàn)行的語料庫是4.0的版本。
2古漢語語料庫http://www.sinica.edu.tw/ftms-bin/ftmsw
古漢語語料庫包含以下五個語料庫: 上古漢語、中古漢語(含大藏經(jīng))、近代漢語、其他、出土文獻(xiàn)。部分?jǐn)?shù)據(jù)取自史語所漢籍全文數(shù)據(jù)庫,故兩者間略有重迭。此語料庫之出土文獻(xiàn)語料庫,全部取自史語所漢簡小組所制作的數(shù)據(jù)庫。
3近代漢語標(biāo)記語料庫http://www.sinica.edu.tw/Early_Mandarin/
4樹圖數(shù)據(jù)庫http://treebank.sinica.edu.tw/
「中文句結(jié)構(gòu)樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經(jīng)由電腦剖析成結(jié)構(gòu)樹,並加以人工修正、檢驗後所得的成果。在中文句結(jié)構(gòu)樹中,我們標(biāo)示了中文句語意和語法的訊息。此一「中文句結(jié)構(gòu)樹資料庫」目前開放網(wǎng)上檢索及資料移轉(zhuǎn),以供學(xué)者專家在中文句法、語意關(guān)係研究參考之用。另有1000個句結(jié)構(gòu)樹開放下載。
5中英雙語知識本體詞網(wǎng)http://bow.sinica.edu.tw/
結(jié)合詞網(wǎng),知識本體,與領(lǐng)域標(biāo)記的詞匯知識庫。
6搜文解字http://words.sinica.edu.tw/
包含「搜詞尋字」、「文學(xué)之美」、「游戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,并可查詢在四書、老、莊、唐詩中的出處,及直接連結(jié)到出處,閱讀原文。
7文國尋寶記http://www.sinica.edu.tw/wen/
在搜文解字的基礎(chǔ)之上,以華語文學(xué)習(xí)者為對象,進(jìn)一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結(jié)合,與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學(xué)典籍結(jié)合,提供網(wǎng)絡(luò)上國語文學(xué)習(xí)的素材。
8唐詩三百首http://cls.admin.yzu.edu.tw/300/
以 國中、小學(xué)學(xué)生為主要使用對象,提供吟唱、繪畫、書法等多媒體數(shù)據(jù),文字?jǐn)?shù)據(jù)報含作者生平、讀音標(biāo)注、翻譯、批注、評注、典故出處等資料;檢索點(diǎn)包含作 者、詩題、詩句、綜合資料、體裁分類等;檢索結(jié)果可以列出全文,并選擇標(biāo)示相關(guān)之文字及多媒體數(shù)據(jù)。并提供了一套可以自動檢查格律、韻腳、批改的「依韻入 詩格律自動檢測索引教學(xué)系統(tǒng)」,協(xié)助孩子們依韻作詩,協(xié)助教師批改習(xí)作。
9漢籍電子文獻(xiàn)http://www.sinica.edu.tw/~tdbproj/handy1/
包含整部25史 整部阮刻13經(jīng)、超過2000萬字的臺灣史料、1000萬字的大正藏以及其他典籍。
10紅樓夢網(wǎng)絡(luò)教學(xué)研究數(shù)據(jù)中心http://cls.hs.yzu.edu.tw/HLM/home.htm
元智大學(xué)中國文學(xué)網(wǎng)絡(luò)系統(tǒng)研究室所開發(fā)的「網(wǎng)絡(luò)展書讀—中國文學(xué)網(wǎng)絡(luò)系統(tǒng)」,為研究中心負(fù)責(zé)人羅鳳珠老師主持,紅樓夢是其中一個子系統(tǒng),其他還包括善本書、詩經(jīng)、唐宋詩詞、作詩填詞等子系統(tǒng)。此網(wǎng)站為國內(nèi)Internet最大中國文學(xué)研究數(shù)據(jù)庫,提供用戶最完整的中國文學(xué)研究數(shù)據(jù)。
(五)中國傳媒大學(xué)
1中國傳媒大學(xué)文本語料庫檢索系統(tǒng)
http://ling.cuc.edu.cn/RawPub/
2在線分詞標(biāo)注系統(tǒng)
http://ling.cuc.edu.cn/cucseg/
3新詞語研究資源庫
http://ling.cuc.edu.cn/newword/web/index.asp
4音視頻語料檢索系統(tǒng)
http://ling.cuc.edu.cn/mmcpub(目前系統(tǒng)正在升級改造中)
(六)哈爾濱工業(yè)大學(xué)
1哈工大信息檢索研究室對外共享語料庫資源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
該語料庫為漢英雙語語料庫,10萬對齊雙語句對,文本文件格式,同義詞詞林?jǐn)U展版,77,343條詞語,秉承《同義詞詞林》的編撰風(fēng)格,同時采用五級編碼體系,多文檔自動文摘語料庫,40個主題,文本文件格式,同一主題下是同一事件的不同報道,漢語依存樹庫,不帶關(guān)系5萬句,帶關(guān)系1萬句,LTML化,分詞、詞性、句法部分人工標(biāo)注,可以圖形化查看,問答系統(tǒng)問題集,6264句,已標(biāo)注問題類型,LTML化,分詞、詞性、句法、詞義、淺層語義等程序處理得到,單文檔自動文摘語料庫,211篇,分不同體裁,LTML化,文摘句標(biāo)注,分詞、詞性、句法、詞義、淺層語義、文本分類、指代消解等程序處理得到。
(七)清華大學(xué)
漢語均衡語料庫TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)
(八)香港教育學(xué)院
語言資訊科學(xué)中心及其語料庫實驗室http://www.livac.org/index.php?lang=sc
自1995年開始,以「共時」方式處理了超常的大量漢語語料,通過精密的技術(shù),累積眾多精確的統(tǒng)計數(shù)據(jù),建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共時語料庫。 本語料庫最大特點(diǎn)是采用「共時性」視窗模式,嚴(yán)謹(jǐn)?shù)囟〞r分別收集來自多地的定量同類語料,可供各種客觀的比較研究,方便有關(guān)的信息科技發(fā)展與應(yīng)用。此外,語料庫又兼顧了「歷時性」,方便各方人士客觀地觀察與研究視窗內(nèi)的有代表性的語言發(fā)展全面動態(tài)。
(九)中國科學(xué)院計算技術(shù)研究所
跨語言語料庫http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升級)
目前的雙語句對數(shù)據(jù)庫中有約180,000對已對齊的中英文句子。 本數(shù)據(jù)庫支持簡單的中英文查詢服務(wù)。 查詢結(jié)果包括句對編號、中文句子、英文句子、句對來源。
(十)中文語言資源聯(lián)盟
中文語言資源聯(lián)盟http://www.chineseldc.org/
(Chinese Linguistic Data Consortium,簡稱ChineseLDC)的建立。ChineseLDC是吸收國內(nèi)高等院校,科研機(jī)構(gòu)和公司參加的開放式語言資源聯(lián)盟。其目的是建成能代表當(dāng)今中文信息處理水平的,通用的中文語言信息知識庫。ChineseLDC 將建設(shè)和收集中文信息處理所需要的各種語言資源,包括詞典,語料庫,數(shù)據(jù),工具等。在建立和收集語言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,推薦給用戶,并且針對中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評測機(jī)制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開發(fā)提供支持。(之所以排名這么后,是因為是國家出錢的項目,卻沒有什么免費(fèi)資源)
【網(wǎng)站】
語料庫在線 http://www.cncorpus.org/
現(xiàn)代漢語語料庫 http://ccl.pku.edu.cn/corpus.asp?item=1
古代漢語語料庫 http://ccl.pku.edu.cn/corpus.asp?item=2
漢英雙語語料庫 http://ccl.pku.edu.cn/corpus.asp?item=3
HSK動態(tài)作文語料庫 http://202.112.195.192:8060/hsk/login.asp
北京口語語料查詢系統(tǒng) http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
現(xiàn)代漢語平衡語料庫 http://rocling.iis.sinica.edu.tw/new/20corpus.htm
LIVAC共時語料庫 http://www.livac.org/index.php
蘭開斯特漢語語料庫 http://ling.cass.cn/dangdai/LCMC/LCMC.htm
洛杉磯加州大學(xué)漢語語料庫 http://www.lancs.ac.uk/fass/projects/corpus/UCLA/
中文新聞分類語料庫 http://www.nlpir.org/?action-viewnews-itemid-145
NLPIR 500萬條twitter內(nèi)容語料庫 http://www.nlpir.org/?action-viewnews-itemid-263
NLPIR微博博主語料庫100萬條 http://www.nlpir.org/?action-viewnews-itemid-232
現(xiàn)代漢語語料庫詞頻統(tǒng)計 http://elearning.ling.sinica.edu.tw/CWordfreq.html
歡迎關(guān)注新浪微博【對外漢語北京】
中文句結(jié)構(gòu)樹資料庫 http://turing.iis.sinica.edu.tw/treesearch/
搜狗文本分類語料庫 http://www.sogou.com/labs/dl/c.html
哈工大信息檢索研究室對外共享語料庫 http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
傳媒大學(xué)文本語料庫 http://ling.cuc.edu.cn/RawPub/
詞語研究資源庫 對外漢語北京 http://ling.cuc.edu.cn/newword/web/index.asp
BFSU CQPweb多語言在線語料庫檢索平臺 http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358
英漢雙語平行語料庫 http://www.luweixmu.com/ec-corpus/
babel 漢英平行語料庫 http://icl.pku.edu.cn/icl_groups/parallel/default.htm
中國法律法規(guī)漢英平行語料庫(大陸) http://corpus.zscas.edu.cn/lawcorpus1/index.asp
國家語言資源監(jiān)測與研究中心 http://www.clr.org.cn/
British National Corpus http://www.natcorp.ox.ac.uk/
以下資源來自中國自然語言開源組織:http://www.nlpcn.org/
Google《紐約時報》標(biāo)注數(shù)據(jù)集
Google公布了一個《紐約時報》標(biāo)注數(shù)據(jù)集: http://t.cn/RPsjAyl 訓(xùn)練集包括100,834文件,19,261,118標(biāo)注實體。 測試集合包括9,706文件,187,080標(biāo)注實體。Google Code項目鏈接: http://t.cn/RPsjAyl
360萬中文詞庫包含,詞性,詞頻
來源:互聯(lián)網(wǎng)。共有詞條3669276個。統(tǒng)計了每個詞條的詞頻以及詞性信息。盡請down。。 下載地址:http://pan.baidu.com/s/1gdBtsTP 提取碼:7s4j
1-billion-word-language-modeling-benchmark 1.67G
1-billion-word-language-modeling-benchmark-r13output.tar 語言模型詞語搭配語料 鏈接: http://pan.baidu.com/s/1o6jZOtc 密碼: x4sb
某購物網(wǎng)站6w多的商品數(shù)據(jù)。鏈接: http://pan.baidu.com/s/1o6DgcNS 密碼: vi4l 包括商品名稱價錢。以及圖片鏈接地址分類id
內(nèi)容自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系。
總結(jié)
- 上一篇: webgl 游戏_如何选择 WebGL
- 下一篇: JVM堆溢出实例