bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么?
對比、分析語料庫的特點,需要從語料來源、規模等,加工處理程度,應用系統提供的功能等幾個方面進行(只對比漢語語料庫):
1. CCL的語料庫有部分口語(北京話調查)語料,包含部分影視作品(如百家講壇、周星馳電影等)語料,網絡語料,書面語語料。其中,報紙語料占絕對大比例。CCL最新一次更新,增加了許多學術論文語料;此外CCL還有古代漢語和中英雙語語料庫,其中雙語語料庫不對外。BCC包括文學、 報刊、微博、科技、古漢語、學生作文等多個領域,其中報刊、文學、微博、科技、古漢語都有20億以上的規模,各類別分布相對均衡。
2. CCL語料庫規模小于BCC。
3. CCL是生語料庫(除了分類、題目、作者等元信息外),正文部分未經過任何加工處理;BCC是熟語料庫,語料經過分詞、詞性標注,少量語料庫還做了句法分析。所以,想查和詞性、句法結構有關的,只能用BCC啦。(用CCL只能下載后自己再做加工處理、統計分析等等....)
4. CCL提供了豐富的,針對字符串的檢索功能,尤其是模式匹配,讓生語料庫也可以滿足多樣性的研究需求;BCC與CCL相比,提供了更加豐富的檢索功能。用CCL無法查詢的不妨試試BCC。
6. CCL可以下載所有檢索結果,這一點非常開放(結合左右最多顯示字數,可以下載完整的檢索結果),BCC最多只能下載10000條結果(太摳門)!
7. CCL沒有提供統計功能,BCC提供了部分統計功能,尤其是非普通字符串檢索時,該功能尤為有用。(雖然CCL沒有提供統計功能,但是可以下載所有檢索結果呀,下載后自己統計、分析唄,這也剛好彌補了CCL沒有統計功能的不足。)
8. CCL沒有提供歷時檢索功能,BCC有,所有想做歷時分析、對比的,就只能選BCC啦。
9. 理念不同(純如個人臆測,如有雷同,純屬巧合)。CCL:我不加工語料,我只提供原始材料,怎么加工處理、怎么統計分析,使用者自行解決。BCC:我不但有原始語料,我還盡量去滿足所有用戶的所有需求,能做的我都做。由此,CCL做的少,但不會犯錯;BCC做的多,但可能有潛在風險。
總結:二者互補,根據實際需求而選擇最合適的!
========================================
小 賤:對不起,CCL真做不到啊!人家沒分詞有沒有標注詞類,咋個查法呢?
總結
以上是生活随笔為你收集整理的bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 随机数公式生成一个负数和正数之间的数_j
- 下一篇: HTML阅读打开点击不了,如何让网页文章