据阿里云EMR快速搭建数据平台(二)
2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>
數(shù)據(jù)平臺(tái)架構(gòu)跌代及研發(fā)
架構(gòu)方案及版本跌代
統(tǒng)計(jì)版0.0.1
spark+redis+oss+sls相關(guān)接口測(cè)試用例和分析環(huán)境都已打通
解析后內(nèi)容,緩存內(nèi)容,數(shù)據(jù)檢查點(diǎn):內(nèi)存和本地或hadoop臨時(shí)文件
持續(xù)更新?tīng)顟B(tài)或數(shù)據(jù)累加匯總結(jié)果直接記redis
常用中間結(jié)果數(shù)據(jù)集考慮存oss(redis備選簡(jiǎn)單集存儲(chǔ),因數(shù)據(jù)鏈接資源問(wèn)題,不適用直接在nosql上做跌代計(jì)算),如新老訪客標(biāo)識(shí)等
redis存儲(chǔ)KEY(暫定):domain-prduct-model-指標(biāo)[-維度1|維度2-周期-其它]
如:twotiger訪問(wèn)統(tǒng)計(jì) 站點(diǎn)概要 當(dāng)天北京小時(shí)級(jí)ip分步的前十個(gè)IP twotiger.com-siteStatistics-siteSummary-ip-timeDim=today|regionalDim=110000-h-top10
維度表存儲(chǔ)
mysql
阿里統(tǒng)一了hive元數(shù)據(jù)庫(kù)(統(tǒng)一了不給root權(quán)限,不在emr,可能不能手動(dòng)增改,總之不靈活,如是業(yè)務(wù)性質(zhì)維度也不太安全)
自建rds 庫(kù)保存管理維護(hù)元數(shù)據(jù)
emr中master節(jié)點(diǎn)有一本地mysql,先把維度表暫放至test庫(kù),以后在遷移
oss文件
hbase
其它nosql
統(tǒng)計(jì)+檢索(當(dāng)前需求基本滿足)
nosql為主的集群,如mogo,解決關(guān)系型百萬(wàn)級(jí)以上讀寫常用統(tǒng)計(jì)困難問(wèn)題
優(yōu)點(diǎn):以業(yè)務(wù)方案統(tǒng)一,簡(jiǎn)單直接成熟易操作開(kāi)發(fā)維護(hù)投入成本低,常用檢索統(tǒng)計(jì)需求均可滿足,除nosql分步式存儲(chǔ)訪問(wèn)優(yōu)勢(shì),
還能運(yùn)用spark給業(yè)務(wù)查詢統(tǒng)計(jì)帶來(lái)分步式計(jì)算的優(yōu)勢(shì),如百萬(wàn)級(jí)記錄統(tǒng)計(jì),從db的30s到nosql的10s內(nèi)到spark的秒級(jí)
劣勢(shì):
1.正則檢索并不能發(fā)揮nosql內(nèi)存索引優(yōu)化,不支持Join,區(qū)分大小寫,內(nèi)存翻倍增長(zhǎng),分片均衡拷備延遲,鎖管理等 2.日志容量增長(zhǎng)是業(yè)務(wù)數(shù)據(jù)的倍數(shù),可能很快到達(dá)nosql邊界,出現(xiàn)丟數(shù)據(jù),無(wú)端故障等不穩(wěn)定狀況, 需實(shí)際測(cè)試,nosql集群的邊界和日志的增長(zhǎng)合理估算周期和投入
針對(duì)版本一架構(gòu)的改動(dòng):
緩存及數(shù)據(jù)檢查點(diǎn)不變
解析后內(nèi)容或數(shù)據(jù)處理后結(jié)果直接進(jìn)mongo
mongo3.2以上,shard分片加replcat set,ssd緩存或全硬盤 2核 4G集群版(據(jù)數(shù)據(jù)增長(zhǎng)擴(kuò)容shard;目前rds都可以改配置有幾次停屯,升級(jí)拷備不影響使用時(shí)間)
10萬(wàn)全表掃描?秒,百萬(wàn)? 秒
單實(shí)例存儲(chǔ)量估計(jì)?W,內(nèi)存使用估計(jì)?G,監(jiān)控指標(biāo)?%備增節(jié)點(diǎn)或做相應(yīng)優(yōu)化
阿里官方性能指標(biāo):單分片(shard)最大支持25600的IOPS,最大存儲(chǔ)2T數(shù)據(jù),單分片最大可承載近 10萬(wàn) QPS 的應(yīng)用壓力;且Sharding模式支持水平無(wú)限擴(kuò)展
個(gè)別慢查詢優(yōu)化方案:獨(dú)立connection或hbase中做預(yù)查詢存儲(chǔ)優(yōu)化
持續(xù)狀態(tài)和匯總統(tǒng)計(jì)結(jié)果值可以用redis也可以合到mongo另一獨(dú)立connection
常用中間結(jié)果集類似oss主為,mongo或redis備選
升級(jí)版,mongo極限后遷致hbase,量上解決了,但檢索開(kāi)發(fā)及性能由自己設(shè)計(jì),維護(hù)成本沒(méi)有優(yōu)勢(shì)
十萬(wàn)條全表查詢秒級(jí),百萬(wàn)在5-8秒
有rowkey過(guò)慮功能,社區(qū)支持勾子函數(shù)實(shí)現(xiàn)二級(jí)索引
全文檢索還是另借lucence等實(shí)現(xiàn)
適合場(chǎng)景:
結(jié)構(gòu)化(單純的、海量的key value)或半結(jié)構(gòu)化的非關(guān)系型的數(shù)據(jù),大規(guī)模寫入(注意適時(shí)禁用auto split)、掃庫(kù)的業(yè)務(wù)
不適宜:
1.隨機(jī)讀取:整block加載到內(nèi)存,二分查找,緩存不斷重建修改 2.靈活查詢則需要自己構(gòu)建二級(jí)索引,甚至重復(fù)數(shù)據(jù)建立不同的查詢key實(shí)現(xiàn),冗余和靈活性,維護(hù)開(kāi)發(fā)成本大
阿里公測(cè)階段需申請(qǐng)
統(tǒng)計(jì)+全文檢索版(為一檢索功能投入太大)
日志服務(wù)+OTS(沒(méi)這東西據(jù)查,日志搜索一個(gè)是周期限制歷史數(shù)據(jù) 沒(méi)有不是全量, 二是只簡(jiǎn)單手動(dòng)配置索引,需現(xiàn)加Keywords)
阿里不支持ES是opensearch服務(wù)(對(duì)決解析后的oss,頁(yè)面級(jí)設(shè)置即可生成日志分詞索引)
ES自搭。。。
架構(gòu)改動(dòng):
解析及處理后結(jié)果偏向存oss或hadoop或自有分步索引格式
全文檢索上做統(tǒng)計(jì),要做中間橋接匹配,如檢索出的記錄,用id列在spark rdd中做filter 或是nosql中in(ids,,,)
其它類似redis 或mongo
數(shù)倉(cāng)DW,集市DM,OLAP,BI完整版(大工程,針對(duì)多倉(cāng)庫(kù)多系統(tǒng)多行業(yè))
倉(cāng)庫(kù)設(shè)計(jì)管理維護(hù)
ODS
集市設(shè)計(jì)管理維護(hù)
元數(shù)據(jù)管理維護(hù)
多維度(拖拉)粒度(上鉆下取)自助分析平臺(tái)OLAP
cube加速技術(shù)
kylin
presto
impala
自建加速寬表優(yōu)化
商業(yè)BI,智能決策中心,,,,
轉(zhuǎn)載于:https://my.oschina.net/hblt147/blog/879151
總結(jié)
以上是生活随笔為你收集整理的据阿里云EMR快速搭建数据平台(二)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 可能是目前轻量级弹幕控件中功能最强大的一
- 下一篇: PLC与IC卡读卡器