大数据之路-阅读笔记
本文只是將阿里大數(shù)據(jù)之路做了個人讀書筆記整理,如果與原版有偏差,以原版為準,僅供學(xué)習參考。
關(guān)于總述
數(shù)據(jù)采集-數(shù)據(jù)計算-數(shù)據(jù)服務(wù)-數(shù)據(jù)應(yīng)用
1.數(shù)據(jù)采集層
日志采集體系包含兩大體系:
Aplus.JS: Web端日志采集技術(shù)方案
UserTack:App端日志采集技術(shù)方案
傳輸方面:
TimeTunnel(TT):數(shù)據(jù)庫的增量傳輸,日志數(shù)據(jù)的傳輸,支持實時流式計算,也支持各種時間窗口的批量計算
數(shù)據(jù)同步:DataX 直連異構(gòu)數(shù)據(jù)庫來抽取各種時間窗口的數(shù)據(jù)
2.數(shù)據(jù)計算層
數(shù)據(jù)存儲及計算云平臺(離線計算平臺Maxcomputer 和實時計算平臺 SteamComputer)
數(shù)據(jù)整合及管理體系(OneData)
OneData:數(shù)據(jù)整合及管理的方法體系和工具
數(shù)據(jù)倉庫的加工鏈路遵守業(yè)界分層的原理:
ODS:operational Data Store 操作數(shù)據(jù)層
DWD:明細數(shù)據(jù)層
DWS:匯總數(shù)據(jù)層
ADS:應(yīng)用數(shù)據(jù)層
元數(shù)據(jù)模型整合及應(yīng)用:
數(shù)據(jù)源元數(shù)據(jù)
數(shù)據(jù)倉庫元數(shù)據(jù)
數(shù)據(jù)鏈路元數(shù)據(jù)
工具類元數(shù)據(jù)
數(shù)據(jù)質(zhì)量類元數(shù)據(jù)
主要面向數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)管理如:存儲,計算和成本等。
3.數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層數(shù)據(jù)源架構(gòu)在多種數(shù)據(jù)庫上,如Mysql ,Hbase,后續(xù)逐漸遷移至阿里云云數(shù)據(jù)庫ApsaraDB for RDS(RDS)和表格存儲(Table Store)
oneService 以數(shù)據(jù)倉庫整合計算好的數(shù)據(jù)作為數(shù)據(jù)源,對外通過接口的方式提供數(shù)據(jù)服務(wù),主要提供簡單的/復(fù)雜的數(shù)據(jù)查詢服務(wù),(集團用戶識別,用戶畫像)實時數(shù)據(jù)推送三大特色。
4.數(shù)據(jù)應(yīng)用層
對數(shù)據(jù)應(yīng)用表現(xiàn)方面:搜索,推薦,廣告,金融,信用,保險,文娛,物流等
本書選擇對外數(shù)據(jù)產(chǎn)品–生意參謀
實時數(shù)據(jù)監(jiān)控
自助式的數(shù)據(jù)網(wǎng)站或產(chǎn)品構(gòu)建的數(shù)據(jù)小站
宏觀決策分析支撐平臺
對象分析工具
行業(yè)數(shù)據(jù)分析數(shù)據(jù)門戶
流量分析平臺
日志采集
日志采集體系包含兩大體系:
Aplus.JS: Web端日志采集技術(shù)方案
UserTack:App端日志采集技術(shù)方案
瀏覽器的頁面日志采集
1.頁面瀏覽日志采集:
PV:頁面瀏覽量
UV:訪客數(shù)
2.頁面交互日志采集:
通過量化獲知用戶的興趣點或者優(yōu)化點
采集流程
1.網(wǎng)頁瀏覽的過程:
用戶輸入–>發(fā)送請求–>服務(wù)器返回響應(yīng)–>解析渲染
HTTP請求
HTTP響應(yīng)
用戶輸入–>發(fā)送請求–>服務(wù)器返回響應(yīng)–>解析渲染
由于前三步驟無法采集用戶瀏覽的日志,需要在第四步,瀏覽器開始解析文檔時才能進行
采集思路:在HTML文檔內(nèi)的適當位置增加日志采集節(jié)點,當瀏覽器解析到這個節(jié)點的時候?qū)詣佑|發(fā)一個特定的HTTP請求到日志采集服務(wù)器,服務(wù)器收到這請求就確定瀏覽器成功接收打開頁面,各類網(wǎng)頁日志采集的解決方案只是在實施的細節(jié),自動采集的內(nèi)容的廣度以及部署有點差異
幾個簡單的過程:
客戶端的日志采集
客戶端日志發(fā)送
服務(wù)器端日志收集
服務(wù)器端日志解析存檔
頁面瀏覽日志采集框架涉及:
1.采集技術(shù)方案
2.PV日志采集標準規(guī)范,關(guān)于PV應(yīng)采集和可采集的數(shù)據(jù)項,并對數(shù)據(jù)格式做了規(guī)定。
頁面交互日志采集
黃金令箭采集方案(并未觸發(fā)瀏覽器加載新頁面-----無法采用PV日志采集):
了解用戶在訪問某個頁面時具體的互動行為特征
了解對某些頁面交互的反應(yīng)
-------技術(shù)服務(wù)形式呈現(xiàn)
如下步驟實現(xiàn)業(yè)務(wù)采集:
1)依次注冊需要采集的交互日志業(yè)務(wù),具體的業(yè)務(wù)場景以及場景下的具體交互采集點,在注冊完成后,系統(tǒng)將生成與之對應(yīng)的交互日志采集代碼模版
2)采集代碼植入,與需要檢測的業(yè)務(wù)行為做綁定
3)產(chǎn)生指定行為,采集代碼被執(zhí)行
4)通過HTTP發(fā)送到服務(wù)器
關(guān)于采集到的日志處理
1.識別流量攻擊,網(wǎng)絡(luò)爬蟲,虛假流量
2.數(shù)據(jù)缺項補正
3.無效數(shù)據(jù)的剔除
4.日志隔離分發(fā)
無線客戶端的日志采集
采用采集SDK完成
多使用名為UserTrack的SDK進行客戶端的日志采集
根據(jù)不同的用戶行為分為不同的事件,事件為無線客戶端行為的最小單位
UserTrack(UT)把事件分為:
頁面事件---------頁面瀏覽
控件點擊事件—頁面交互
頁面事件
每條頁面事件記錄三類信息:
1.設(shè)備及用戶的基本信息
2.被訪問頁面的信息
3.訪問基本路徑
UT接口:
頁面展現(xiàn)
頁面退出
添加頁面擴展信息的接口
透穿參數(shù),SPM(超級位置模型)進行來源去向的追蹤來還原用戶的行為路徑
控件點擊及其他事件
操作頁面上某個控件,把相關(guān)基礎(chǔ)信息告訴SDK即可
特殊場景:
頁面的生命周期,識別頁面的復(fù)用,配合棧的深度來識別是否回退
H5&Native日志統(tǒng)一
無線日志傳輸
先存儲客戶端本地,再伺機上傳
日志采集挑戰(zhàn)
如何實現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化規(guī)范化組織,實現(xiàn)更為高效的下游統(tǒng)計計算
典型場景
日志分流與定制處理
采集與計算一體化設(shè)計
大促保障
數(shù)據(jù)同步
直連同步
數(shù)據(jù)文件同步
數(shù)據(jù)庫日志解析同步
阿里數(shù)據(jù)倉庫的同步方式
前提:多樣,海量
批量同步
要實現(xiàn)各類數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫系統(tǒng)之間的批量雙向數(shù)據(jù)同步,就需要先將數(shù)據(jù)轉(zhuǎn)換為中間狀態(tài),統(tǒng)一數(shù)據(jù)格式,換為字符串類型
DataX
實時同步
通過解析MySQL的binlog日志(相當于Oracle的歸檔日志)來實時獲得增量的數(shù)據(jù)更新,并通過消息訂閱模式來實現(xiàn)數(shù)據(jù)的實時同步的
TimeTunnel(TT)
數(shù)據(jù)同步遇到的問題與解決萬案
分庫分表的處理
一個中間表,具備將分布在不同數(shù)據(jù)庫中的不同表集成為一個表的能力TDDL( Taobao D istributed Data Layer)
高效同步和批量同步
OneClick產(chǎn)品:·對不同數(shù)據(jù)源的數(shù)據(jù)同步配置透明化,可以通過庫名和表名唯一定位,通過IDB接口獲取元數(shù)據(jù)信息自動生成配置信息。·簡化了數(shù)據(jù)同步的操作步驟,實現(xiàn)了與數(shù)據(jù)同步相關(guān)的建表、配置任務(wù)、發(fā)布、測試操作一鍵化處理,并且封裝成Web接口進一步達到批量化的效果。·降低了數(shù)據(jù)同步的技能門檻,讓數(shù)據(jù)需求方更加方便地獲取和使用數(shù)據(jù)。
增量與全量同步的合并
在傳統(tǒng)的數(shù)據(jù)整合方案中,合并技術(shù)大多采用merge方式( update+insert):當前流行的大數(shù)據(jù)平臺基本都不支持update操作,現(xiàn)在我們比較推薦的方式是全外連接(fullouter join) +數(shù)據(jù)全量覆蓋重新加載(insertoverwrite),即如日調(diào)度,則將當天的增量數(shù)據(jù)和前一天的全量數(shù)據(jù)做全外連接,重新加載最新的全量數(shù)據(jù)。
如果擔心數(shù)據(jù)更新錯誤問題,可以采用分區(qū)方式,每天保持一個最新的全量版本,保留較短的時間周期(如3~7天)。
當業(yè)務(wù)系統(tǒng)的表有物理刪除數(shù)據(jù)的操作,而數(shù)據(jù)倉庫需要保留所有歷史數(shù)據(jù)時,也可以選擇這種方式,在數(shù)據(jù)倉庫中永久保留最新的全量數(shù)據(jù)快照。
同步性能的處理
數(shù)據(jù)漂移的處理
1.多獲取后一天的數(shù)據(jù)
2.通過多個時間戳字段限制時間來獲取相對準確的數(shù)據(jù)
離線數(shù)據(jù)開發(fā)
數(shù)據(jù)開發(fā)平臺
阿里數(shù)據(jù)研發(fā)崗位:
了解需求→模型設(shè)計→ETL開發(fā)→測試→發(fā)布上線→日常運維→任務(wù)下線
通過統(tǒng)一的計算平臺(MaxCompute)
統(tǒng)一的開發(fā)平臺(D2等相關(guān)平臺和工具)
統(tǒng)一的數(shù)據(jù)模型規(guī)范和統(tǒng)一的數(shù)據(jù)研發(fā)規(guī)范
統(tǒng)一計算平臺–MaxCompute
MaxCompute由四部分組成,分別是客戶端(MaxComputeClient)、接人層(MaxCompute Front End)、邏輯層(MaxCompt陽Server)及存儲與計算層(Apsara Core)。Max
統(tǒng)一開發(fā)平臺
在云端(02)
SQLSCAN
DQC
在彼岸
任務(wù)調(diào)度系統(tǒng)
實時技術(shù)
流式技術(shù)架構(gòu)
1.數(shù)據(jù)采集
2.數(shù)據(jù)處理
3.數(shù)據(jù)存儲
數(shù)據(jù)采集
數(shù)據(jù)處理
1.去重指標
2.數(shù)據(jù)傾斜
3.事務(wù)處理
數(shù)據(jù)存儲
1.表名設(shè)計
2. rowkey設(shè)計
3. 數(shù)據(jù)服務(wù)
流式數(shù)據(jù)模型
1.數(shù)據(jù)分層
2.多流關(guān)聯(lián)
3.維表使用
數(shù)據(jù)服務(wù)
1.服務(wù)架構(gòu)的更迭
2.技術(shù)架構(gòu)
3.性能
4.穩(wěn)定性
數(shù)據(jù)挖掘
必備:
①面向機器學(xué)習算法的并行計算框架與算法平臺
②面向企業(yè)級數(shù)據(jù)挖掘的算法資產(chǎn)管理體系
MPI可以更好:頻繁進行網(wǎng)絡(luò)通信、內(nèi)存消耗高、計算要求快速迭代的算法任務(wù)(所以沒有選擇基于MapReduce 與Hive的計算)
數(shù)據(jù)中臺
通常一次數(shù)據(jù)挖掘的過程包括商業(yè)理解、數(shù)據(jù)準備、特征工程、模型訓(xùn)練、模型測試、模型部署、線上應(yīng)用及效果反饋等環(huán)節(jié)。
構(gòu)建中臺的意義:將一些通用的技術(shù)集成起來形成中臺技術(shù)體系,為各業(yè)務(wù)部門提供統(tǒng)一、高效的技術(shù)服務(wù),避免各業(yè)務(wù)部門在各自業(yè)務(wù)發(fā)展的過程中進行重復(fù)的技術(shù)建設(shè)造成不必要的資源浪費與時間消耗。
挖掘數(shù)據(jù)中臺
包含兩類數(shù)據(jù):特征數(shù)據(jù)與結(jié)果數(shù)據(jù)
挖掘算法中臺
數(shù)據(jù)挖掘案例
用戶畫像
詳細講解該用戶標簽是如何基于全域數(shù)據(jù)產(chǎn)出的?
互聯(lián)網(wǎng)反作弊
unit2數(shù)據(jù)模型篇
大數(shù)據(jù)領(lǐng)域建模綜述
數(shù)據(jù)模型就是數(shù)據(jù)組織和存儲方法,它強調(diào)從業(yè)務(wù)、數(shù)據(jù)存取和使用角度合理存儲數(shù)據(jù)。
經(jīng)典數(shù)據(jù)庫理論書籍,如《數(shù)據(jù)庫系統(tǒng)概念》
?
OLTP系統(tǒng)通常面向的主要數(shù)據(jù)操作是隨機讀寫,主要采用滿足3NF的實體關(guān)系模型存儲數(shù)據(jù),從而在事務(wù)處理中解決數(shù)據(jù)的冗余和一致性問題
OLAP系統(tǒng)面向的主要數(shù)據(jù)操作是批量讀寫,事務(wù)處理中的一致性不是OLAP所關(guān)注的,其主要關(guān)注數(shù)據(jù)的整合,以及在一次性的復(fù)雜大數(shù)據(jù)查詢和處理中的性能,因此它需要采用一些不同的數(shù)據(jù)建模方法。
典型的數(shù)據(jù)倉庫建模萬法論
ER模型
維度模型
Data Vault模型
ER模型的衍生
Anchor模型
對DataVault模型做了進一步規(guī)范化處理
阿里巴巴數(shù)據(jù)模型
第一階段 ODS+DSS
第二階段
在不太成熟、快速變化的業(yè)務(wù)面前,構(gòu)建ER模型的風險非常大,不太適合去構(gòu)建ER模型。
第三階段 Kimball
阿里巴巴數(shù)據(jù)整合及管理體系–OneData
概述
規(guī)范定義
名詞術(shù)語
指標體系
模型設(shè)計
指導(dǎo)理論–維度建模
模型層次
基本原則
1 .高內(nèi)聚和低輯合
2.核心模型與擴展模型分離
3.公共處理邏輯下沉及單一
4.成本與性能平衡
5.數(shù)據(jù)可回滾
6.一致性
7.命名清晰、可理解
模型實施
常用的模型實施過程
1.Kimball
2.Inmon
3.其他模型實施過程
OneData實施過程
維度設(shè)計
在維度建模中,將度量稱為“事實”,將環(huán)境描述為“維度”。
維度是用于分析事實所需要的多樣環(huán)境。
維度設(shè)計
維度表的主鍵一般都使用代理鍵,沒見過用自然鍵的維表
選擇主鍵:自然鍵還是代理鍵?
基本方法
第一步:選擇維度或新建維度
第二步:確定主維表
第三步:確定相關(guān)維表
第四步:確定維度屬性:
1.從主維表中選擇維度屬性或生成新的維度屬性;
2.從相關(guān)維表中選擇維度屬性或生成新的維度屬性
維度的層次結(jié)構(gòu)
規(guī)范化和反規(guī)范化
一致性維度和交叉探查
維度設(shè)計高級主題
維度整合
1.垂直整合
2.水平整合
維度拆分
1.垂直拆分
2.水平拆分
維度變化
緩慢變化維
快照維表
極限存儲
微型維度
特殊維度
1.遞歸層次
行為維度
多值維度
雜項維度
事實表設(shè)計
事實表基礎(chǔ)
事務(wù)事實表
單事物事實表
多事物事實表
周期快照事實表
累積快照事實表
三種事實表的比較
無事實的事實表
聚集型事實表
unit 3 數(shù)據(jù)管理篇
元數(shù)據(jù)
技術(shù)元數(shù)據(jù)
業(yè)務(wù)元數(shù)據(jù)
計算管理
系統(tǒng)優(yōu)化
1.HBO
2.CBO
任務(wù)優(yōu)化
1.MAP傾斜
2.join傾斜
3.Reduce傾斜
存儲和成本管理
數(shù)據(jù)壓縮
archive壓縮方法
數(shù)據(jù)重分布
主要通過修改distributeby和sortby字段的方法進行數(shù)據(jù)重分布
存儲泊理頂優(yōu)化
生命周期管理
數(shù)據(jù)成本計量
數(shù)據(jù)使用計費
數(shù)據(jù)質(zhì)量
1 .消費場景知曉
2.數(shù)據(jù)生產(chǎn)加工各個環(huán)節(jié)卡點校驗
3.風險點監(jiān)控
4.質(zhì)量衡量
5.質(zhì)量配套工具
Uint4 數(shù)據(jù)應(yīng)用篇
生意參謀
對內(nèi)數(shù)據(jù)產(chǎn)品平臺
總結(jié)
以上是生活随笔為你收集整理的大数据之路-阅读笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021-05-26python 批量更
- 下一篇: chip_seq数据分析专题