redis+结巴分词做倒排索引
起源
之前爬取過(guò)一百萬(wàn)的歌曲,包括歌手名,歌詞等,最近了解到倒排索引,像es,solr這種太大,配置要求太高,對(duì)于一百萬(wàn)的數(shù)據(jù)量有些小題大做,所以想到了redis做一個(gè)倒排索引。
我的配置
這里說(shuō)一下我的配置,后面用的到:
cpu:i7 8750HQ (六核十二線程) 內(nèi)存:8G ddr4 硬盤(pán):ssd(.m2接口)思路
簡(jiǎn)單來(lái)說(shuō)就是把MySQL中的數(shù)據(jù)取出來(lái),分詞(包括去除停用詞),將分詞后得到的一個(gè)個(gè)詞語(yǔ)存入redis。在redis當(dāng)中,一個(gè)詞語(yǔ)就是一個(gè)set,set里存放的是歌詞中包含這個(gè)詞語(yǔ)的歌的主鍵。
當(dāng)我們生成這么一個(gè)倒排索引后,就可以實(shí)現(xiàn)“搜索一句話,很快得到有這些話的歌曲集合”。
因?yàn)橐话偃f(wàn)的數(shù)據(jù)還是挺大的,所以考慮多線程執(zhí)行,按過(guò)程來(lái)說(shuō)分為兩部分:
1、從數(shù)據(jù)庫(kù)中取出來(lái),放到Redis的list結(jié)構(gòu)里去,使用list的lpush和rpop達(dá)到一種消息隊(duì)列的效果。
2、從Redis中rpop出一首歌,分詞,然后將分詞結(jié)果存入Redis,形成倒排索引。
下面就根據(jù)這兩部分講一下具體的實(shí)現(xiàn)。
實(shí)現(xiàn)
MySQL->Redis部分的實(shí)現(xiàn)
這一部分思路就是從MySQL中取出數(shù)據(jù),使用FastJson進(jìn)行序列化,存入key為“dbWorkersKey”的list里,這里使用的是lpush命令。
我們把上面的思路封裝到一個(gè)Thread里,多線程的去搬運(yùn)就很快了。
多線程下有以下幾個(gè)問(wèn)題和回答:
Q:我們使用的數(shù)據(jù)訪問(wèn)工具是Spring的JdbcTemplate,他是線程安全的嗎
A:是線程安全的,Spring把session,connection這些非線程安全的使用ThreadLocal做了線程私有化,避免了這些問(wèn)題。
Q:每個(gè)線程負(fù)責(zé)一塊數(shù)據(jù),數(shù)據(jù)劃分怎么做
A:使用了一個(gè)AtomicInteger,多個(gè)線程同時(shí)持有一個(gè)該對(duì)象,每次都incrementAndGet,在SQL語(yǔ)句中結(jié)合limit使用,做到數(shù)據(jù)的劃分。
Q:考慮到多線程,那肯定要用線程池了,線程池有什么需要注意的嗎
A:有,因?yàn)橐粋€(gè)任務(wù)的很大的兩塊時(shí)間——從MySQL獲取數(shù)據(jù)和向Redis添加數(shù)據(jù)——都是網(wǎng)絡(luò)IO,為了更好地利用處理器,我們可以把線程池大小設(shè)置為2*核心數(shù),同時(shí)別忘記把數(shù)據(jù)庫(kù)連接池的最大連接數(shù)設(shè)置為大于線程數(shù),比如我用的dbcp2默認(rèn)的maxTotal是8。
Q:如何搬運(yùn)完畢后自動(dòng)停止
A:這里因?yàn)槲抑腊徇\(yùn)條目的總數(shù)量為1106599,而且我每次獲取1000條,所以當(dāng)AtomicInteger >1107時(shí),就是結(jié)束的時(shí)候了
worker代碼如下:
static class DbWorker extends Thread {private JdbcTemplate jdbcTemplate;private RedisCacheManager redisCacheManager;private String name;private AtomicInteger atomicInteger;public DbWorker(JdbcTemplate jdbcTemplate, RedisCacheManager redisCacheManager, String name, AtomicInteger atomicInteger) {this.jdbcTemplate = jdbcTemplate;this.redisCacheManager = redisCacheManager;this.name = name;setName(name);this.atomicInteger = atomicInteger;}@Overridepublic void run() {super.run();long lastSongId = 0;while (true) {int index = atomicInteger.incrementAndGet();if (index > 1107) {System.out.println(TimeUtils.dateToString() + " dbWorkers-" + getName() + "-db中應(yīng)該是沒(méi)有數(shù)據(jù)了,結(jié)束線程運(yùn)行...-get index = " + index + " ... lastSongId = " + lastSongId);return;}int start = (index - 1) * 1000;List<Song> result = jdbcTemplate.query("select id,lyric from song limit " + start + ",1000", new Object[] {},new BeanPropertyRowMapper<Song>(Song.class));for (Song temp :result) {redisCacheManager.lpush(REDIS_DB_WORKERS_KEY, JSON.toJSONString(temp));}lastSongId = result.get(result.size()-1).getId();System.out.println("dbWorkers-" + getName() + "-獲得" + result.size() + "條數(shù)據(jù)后已經(jīng)將這些數(shù)據(jù)運(yùn)往redis保存了,繼續(xù)下一次db獲取... -get index = " + index + " ... lastSongId = " + lastSongId);}}}消耗時(shí)間
當(dāng)時(shí)設(shè)置的是16條線程,忘記修改最大連接數(shù),導(dǎo)致最大連接數(shù)為8,而且打印的內(nèi)容有點(diǎn)多,所以,1106599條數(shù)據(jù),從MySQL搬運(yùn)到Redis用了7min16s的時(shí)間。
Redis->分詞->Redis中
這一部分主要是從Redis中使用rpop出一首歌,使用FastJson反序列化后,對(duì)歌詞進(jìn)行分詞,這里分詞使用的是結(jié)巴分詞的Java版本,將分詞結(jié)果去除停用詞后,存入key為“song:詞語(yǔ)”的set結(jié)構(gòu)中。
當(dāng)然也要用到多線程了,要不得到啥時(shí)候去。
Q&A
Q:在多線程池中,注意的問(wèn)題?
A:因?yàn)榉衷~是一個(gè)計(jì)算型的任務(wù),所以我們需要壓榨處理器,設(shè)置線程數(shù)為核數(shù)+1,減少線程切換次數(shù)
Q:如果全部數(shù)據(jù)處理完畢,如何停止任務(wù)呢?
A:每次rpop出的value,如果為空,則rpopIsNull計(jì)數(shù)器+1,并線程沉睡rpopIsNull*500毫秒,rpopIsNull大于5之后,退出線程。如果又一次rpop出的value不為空,則將rpopIsNull重置為0,這樣還可以避免生產(chǎn)者消費(fèi)者的處理能力不均的問(wèn)題。
其他:
A:注意多線程異常
A:停用詞使用的是結(jié)巴提供的詞語(yǔ)庫(kù)
A:使用SpringRedis的時(shí)候,他默認(rèn)的序列化器是Java默認(rèn)的序列化器,這個(gè)序列化器會(huì)在序列化后的內(nèi)容最前頭加上類(lèi)信息,每個(gè)key、value都有,看著不舒服的同時(shí)還浪費(fèi)內(nèi)存空間,我就換成了StringRedisSerializer,參考的這一篇文章,文章末還推薦了一片【Redis 內(nèi)存優(yōu)化】節(jié)約內(nèi)存:Instagram的Redis實(shí)踐也很棒
A:使用VisualVM進(jìn)行監(jiān)控,特別是VisualVM中各個(gè)狀態(tài)的意義,還有如何分析出死鎖
A:Redis在生產(chǎn)環(huán)境中,使用keys,一般肯定把服務(wù)器打掛,一般使用scan和dbsize,具體文章點(diǎn)擊Redis查詢(xún)當(dāng)前庫(kù)有多少個(gè) key和2.1.1 列出key——極客學(xué)院課程
代碼:
static class FenCiWorker extends Thread {private RedisCacheManager redisCacheManager;private String name;private int cantPop = 0;private JiebaSegmenter segmenter;public FenCiWorker(RedisCacheManager redisCacheManager,String name) {this.redisCacheManager = redisCacheManager;this.name = name;setName(name);segmenter = new JiebaSegmenter();}@Overridepublic void run() {super.run();long lastSongId = 0;while (true) {Object value = redisCacheManager.rpop(REDIS_DB_WORKERS_KEY);if (value != null) {cantPop = 0;Song song = JSON.parseObject((String) value, Song.class);lastSongId = song.getId();String lyric = song.getLyric();if (StringUtils.isEmpty(lyric)) { // 多線程的異常,這里如果不檢測(cè)lyric是否為null,線程會(huì)報(bào)異常后不提示而結(jié)束...continue;} // System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-開(kāi)始處理一首歌 id = " + lastSongId);List<SegToken> result = segmenter.process(lyric, JiebaSegmenter.SegMode.INDEX);for (SegToken temp :result) {String word = temp.word;if (!stopWordSet.contains(word)) {redisCacheManager.sSet(REDIS_SONG_INDEX_PRE + word,song.getId().toString());}} // System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-處理了完一首歌 id = " + lastSongId);} else {cantPop++;if (cantPop >= 5) {System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-超過(guò)5次沒(méi)有pop到數(shù)據(jù),線程退出了... lastSongId = " + lastSongId);return;} else {long sleep = cantPop * 500;System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-已經(jīng)+ " + cantPop + "次沒(méi)有pop到數(shù)據(jù)... 線程將沉睡" + sleep + " lastSongId = " + lastSongId);try {Thread.sleep(sleep);} catch (InterruptedException e) {e.printStackTrace();}}}}}}消耗時(shí)間
開(kāi)了8個(gè)線程,花了16min35s,共1106559條數(shù)據(jù),速度1112.12首/s。
到這里,倒排索引就建好了,備份一下dump.rdb文件。
使用
簡(jiǎn)單的實(shí)現(xiàn)思路,用戶(hù)輸入一句話,對(duì)這句話分詞,根據(jù)分詞結(jié)果去redis查詢(xún),將查詢(xún)結(jié)果放到idSet里,最后對(duì)idSet進(jìn)行遍歷,使用主鍵去數(shù)據(jù)庫(kù)查詢(xún)。
不足
優(yōu)化
索引應(yīng)該加入歌名,直接搜歌名
加入優(yōu)先級(jí)屬性,比如搜歌名得到的結(jié)果應(yīng)該放到最前面
其他的可以去查閱一些關(guān)于搜索的文章
總結(jié)
以上是生活随笔為你收集整理的redis+结巴分词做倒排索引的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 数据机房智能母线槽技术分析-Susie
- 下一篇: vue3 + ts + vite 动态显