ksearch系统开发过程中遇到的KFC性能问题
前天ksearch性能壓測(cè)過(guò)程中發(fā)現(xiàn)一個(gè)很奇怪的問(wèn)題,跟了3天,case做了無(wú)數(shù)個(gè),終于發(fā)現(xiàn)問(wèn)題所在,還是KFC(KuaFu Communication)的問(wèn)題。然后想起來(lái),去年實(shí)時(shí)搜索上線前夕,也遇到一個(gè)很奇怪的問(wèn)題,最后定位出來(lái)也是KFC的問(wèn)題,異常郁悶,所以這里記錄一下。
ksearch的服務(wù)框架:search和merge兩種角色,search負(fù)責(zé)真正的存儲(chǔ)和檢索,通過(guò)行結(jié)構(gòu)做災(zāi)備,列結(jié)構(gòu)獲得大數(shù)據(jù)量和高QPS;merge對(duì)外提供服務(wù),對(duì)內(nèi)轉(zhuǎn)發(fā)請(qǐng)求給相應(yīng)列的search機(jī)器;search和merge之間的網(wǎng)絡(luò)和角色,是通過(guò)kfc管理的。search的每一列負(fù)責(zé)同一個(gè)key的請(qǐng)求,merge通過(guò)key_send轉(zhuǎn)發(fā)請(qǐng)求到相應(yīng)search機(jī)器。kfc對(duì)我們來(lái)說(shuō)是一套黑盒系統(tǒng),只是聽老大說(shuō)很nb,很多部門都在用;使用過(guò)程中碰到了很多蛋疼的問(wèn)題。以后有這種涉及到性能的大型系統(tǒng),千萬(wàn)不要信黑盒系統(tǒng),不管別人說(shuō)它多么nb。
case 1: 2行6列search,merge復(fù)用第一行的前兩臺(tái)機(jī)器
現(xiàn)象:通過(guò)merge壓測(cè)時(shí),如果把query落在單獨(dú)一列,不管是高并發(fā)還是低并發(fā),由于search服務(wù)能力很強(qiáng),可以很輕松把merge網(wǎng)絡(luò)壓滿,達(dá)到10K的qps;用abench -r壓也可以輕松達(dá)到8K以上沒(méi)有異常。但是如果query落到所有列上,低并發(fā)情況下,可以達(dá)到10K;如果用高并發(fā)壓,發(fā)現(xiàn)qps只能達(dá)到5K左右;用abench -r壓2K的qps都會(huì)有很多超時(shí),和預(yù)期相差很大。看merge機(jī)器,不管是進(jìn)程還是系統(tǒng),都遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到瓶頸;而且search機(jī)器也很空閑。由于下周就要上線,相當(dāng)操蛋。
針對(duì)這個(gè)問(wèn)題,我們做了以下實(shí)驗(yàn):
1.? 只壓到兩列的query,結(jié)果跟壓全列query一樣,說(shuō)明不是機(jī)器規(guī)模問(wèn)題。
2.? 調(diào)整query返回結(jié)果大小,發(fā)現(xiàn)高并發(fā)下qps跟返回結(jié)果大小成反比,即返回結(jié)果越小,qps越高;而實(shí)際上返回結(jié)構(gòu)大小,search處理時(shí)間幾乎不會(huì)變化。 說(shuō)明還是網(wǎng)絡(luò)的問(wèn)題。
3. 分析log發(fā)現(xiàn),不管高并發(fā)還是低并發(fā),search機(jī)器處理query的平均時(shí)間沒(méi)有變化,但merge機(jī)器觀察到search的latency卻有很大變化。網(wǎng)絡(luò)通信我們用的是kfc,說(shuō)明問(wèn)題出在kfc身上。
還有其他一些,不一一列了,最后確認(rèn)是同一臺(tái)機(jī)器復(fù)用search和merge,觸發(fā)了kfc的性能問(wèn)題;通過(guò)調(diào)整系統(tǒng)部署解決。
case 2: 2行22列,3臺(tái)merge
現(xiàn)象:merge總是觀察到批量超時(shí),每次一有query超時(shí)就超一批,對(duì)超時(shí)query分析發(fā)現(xiàn),每一批中一般只有一個(gè)大賣家,其他都是小賣家。大賣家超時(shí)是可以預(yù)期的,小賣家超時(shí)卻沒(méi)辦法解釋。
case做了一大堆,糾結(jié)到最后發(fā)現(xiàn)是因?yàn)?#xff0c;kfc分發(fā)消息時(shí)使用Round-Robin方式,假設(shè)有10個(gè)server提供服務(wù),來(lái)了1000個(gè)query,他會(huì)為RR的為每個(gè)server分100個(gè)query,而不是哪個(gè)server閑著就分配給哪個(gè)。這樣就有問(wèn)題了,如果有一個(gè)大賣家堵住了一個(gè)server,其他的query就在他后面排隊(duì),等到第一個(gè)大賣家超時(shí),后面堵著的所有賣家都超時(shí)了。
總結(jié)
以上是生活随笔為你收集整理的ksearch系统开发过程中遇到的KFC性能问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: web播放m3u8文件且进行加密处理
- 下一篇: 电力电子 中英 对照