通过女票的淘宝历程,大白话讲解大数据各个方向的分工
浙江女性胸部全國最小!?
--馬云
本文轉自公眾號“大數據肌肉猿”,作者無精瘋
1 背景
總跟女票說我是做大數據的,女票也跟她朋友說我是做大數據的,但一問是啥,我跟我女票解釋了半天她都沒聽懂,她也不知道怎么跟她朋友說。最好的解決方法是換女票,當然這是不存在的,想都不會想也不敢想。于是乎說寫篇她看完也能知道大數據的文章給她。
下次要是有人問你大數據開發是什么,希望你能把這篇文章分享給他。
2. 開始淘寶
2.1 推薦系統(導購員)
一打開女票的手機淘寶頁面,就發現推薦欄叫我女票換包。
推薦商品欄以及熱搜和搜索框中的內容,都是根據你定制的。你最近經常搜的物品和瀏覽的東西都被記錄起來,然后被貼上標簽。像我女票應該是被貼上「小仙女」、「時尚」、「少女」等標簽,下次的女神節,情人節等節日活動的對象就是他們。
這個就是大數據中的推薦系統,專門猜你喜歡,類似導購,提高你的購買率。
2.2 大數據平臺開發(店里監控布局)
那么數據是怎么被記錄的?被記錄的又是什么數據?
你的昵稱,設備IP,瀏覽的足跡,每個商品停留的時間,瀏覽的時間段都是后臺要采集的數據。
首先我們搭建一個平臺,專門去定制收集數據的手段、采取的策略和存放這些數據的地方,這就是大數據平臺的搭建。
類似你在你店里布置了監控探頭,錄音等設備,然后有其他店員通過這些設備幫你觀察消費者的言行舉止等等行為。
2.3 實時計算(收銀員)
當你在瀏覽商品的時候,你會發現旁邊會有實時的推薦,如下圖:
這是因為你在瀏覽商品的過程中數據不斷被收集,然后被投放到上述的推薦系統中。但是那些用戶名,商品等信息不一定都是規則的,有可能是數字,有可能是符號。所以我們這邊要有一類程序員,專門負責實時的處理這些數據,把這些數據處理成有規則的,并推送到上述的推薦系統里進行訓練,實時給用戶推薦商品。
這個過程就是大數據的實時計算,它具有時效性,就是不能停,立刻馬上做出響應的。把它比喻成收銀員就是為了突出實時,別人要結賬你得立即做出響應。
2.4 數據倉庫(儲物間)
數據倉庫,顧名思義,存儲數據的倉庫。在我們一些工廠或者企業的倉庫里,我們通常都會按順序、分類放好我們的物品,要制定規則,哪些能放,哪些不能放,哪些需要處理之后才能放。
比如說你要放一個柜子,不能直接放下,但你如果把它拆成木板就可以放,等要用的時候通過這些木板去組裝就行。
因為數據倉庫的存儲要遵守數據倉庫管理員制定的規則,得將數據按照規格處理好才能進行存放,所以數據倉庫一般用于存放不著急用而且不經常更換的東西,這樣比較省事,我們什么時候想用再去取就行。
像我們前面說的實時計算,就沒必要把那些數據放到數據倉庫,我們需要的是一條流水線的數據管道,實時去推送。但后續的離線計算就截然相反,它需要數據倉庫的支撐,便于更好地去計算數據。
2.5 數據分析(店長)
當你從淘寶給你推薦的商品挑選出你喜歡的之后,點擊直接購買并付款。淘寶系統會生成一條你訂單的數據到數據庫里面,上面會有你的收件地址、聯系方式、商品信息、數量等。
而這些數據有什么用呢?你可能會想說,留底當憑證啊。對的,不過不止這個作用。
舉個例子:馬云開會說:我要看一下這十年的內衣銷售明細,各個地區的銷售情況。這時候有個部門就要去整理出這些報表了,那就是數據分析部門,他們要從海量的數據中去分析這些指標,并整理成報表給馬老板看。
馬老板看了這些數據之后,得出一個結論:「浙江女性胸部全國最小」。然后呢?肯定是以后往浙江多進一些小碼的內衣,以增加銷售量,然后可能再順帶賣點木瓜什么的。
這就是數據分析帶來的好處,為我們公司的高層提供決策支持。
2.6 離線計算(會計)
不對啊,十年的數據量,能說查就查嗎?數據量得多大啊!沒錯,不可能說要什么數據立馬就能查出來的。最理想的方案就是:當天結束就計算當天的指標,把銷售額,地址什么的統計好,然后每星期再統計一下,每個月再統計一下,以此類推。那算十年不就分分鐘的事?
對的,那這些事情誰來做呢?當然是我們離線計算工程師。離線計算顧名思義,實時計算的對立方,我們做的是幕后工作。可以將實時計算工程師想象為收銀員,每個顧客買單時都得結賬并打印發票什么的,不能拖延。離線計算則是會計,每天下班之后看著賬單點數,看看今天哪些東西各賣多少。可以慢悠悠地算一個晚上,數據對就行,沒人在乎你算了多久。
2.7 數據挖掘(精算師)
那這些處理好的數據不能光存著啊,得挖掘出它的價值。沒錯,根據這些訂單數據,我們能推測出未來商品的一個銷售走勢,哪個地區需要投放哪些商品,這就是數據挖掘。數據挖掘相當于我們企業的精算師顧問,他會從你已有的數據去分析你之后的走勢,給你提供一些有價值可供參考的建議。
我們要給數據挖掘系統投放有價值的數據,它類似我們人腦,輸入的數據越有價值和參考性,預測的結果越準,否則只會誤導。
3、總結
好了,通過以上步驟,淘寶更懂我女朋友了,它會推送更多符合我女票的胃口的商品,然后下單之后的數據會幫助那些商家投放更多種類的商品到該地區,選擇更多了,我女朋友也更喜歡在淘寶購物了。
總結
以上是生活随笔為你收集整理的通过女票的淘宝历程,大白话讲解大数据各个方向的分工的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 干货,springboot自定义注解实现
- 下一篇: 如果把线程当作一个人来对待,所有问题都瞬