【大数据】朴素的数据价值观
目錄
什么是數據
數據的商業價值
政府價值
可量化的參照系
數據價值的轉化
搞清楚客戶的需求
數據分析風口(未來)
什么是數據
常見答案:數據=信息,數據=數字? (太過抽象)
其實,數據遠不局限數字,凡是電子記錄的都是數據,依賴記錄數據的技術手段,比如,手機,數碼相機,各種工程設備上的探頭等,這些手段有強烈的時代特征。(不同時代所能提供的記錄的技術手段是不一樣的)
思考
? ? 當前以及未來,數據采集的基礎技術是否會有一些突破性的變革?如果有,這些變革會發生在哪些方向上?進而帶來哪些新的數據?
? ? 通過對這些新的數據進行分析,能夠回答哪些之前不能回答的科學問題?是否可產生一些增值的商業價值?
數據的商業價值
數據的商業價值三要素:收入,支出,風險
企業靠什么什么活著?(收入),企業為了獲得收入,需要做什么?(支出),沒有任何企業對自己未來的收入和支出是100%確定的,這種不確定性帶來的是什么?(風險)
靠譜的談數據商業價值觀:任何數據產品,如果可以幫助客戶在收入,支出,風險中的任何一方面實現可量化的改進。
延伸思考:
- 收入:能否為客戶帶來額外的收入?
- 支出:能否給客戶節約不必要的開支?
- 風險:能否幫助客戶把控風險,或增加收入,或降低成本?
事實上答案是肯定的,來看下數據分析帶來商業價值的應用場景:
最理想的額外收入-新興市場
? ? 五一小長假,堵車是必然,能否出一個堵車的堵車險,每堵車一分鐘賠付一塊錢,補償下你那郁悶的心情。看似不錯注意,保險公司為什么不做呢?因為傳統保險公司沒有技術手段可以實時監控一輛車的狀態。但是有了車聯網數據,就會催生一種全新的保險產品,帶來一個純粹增量的新興市場。
百度付費搜索廣告
? ? 通過對用戶搜索數據的深入分析,理解用戶意圖,進行精準匹配,對于諸如醫療,教育, 電商等行業,廣告的投放能夠直接帶來銷售的收入。
呼叫中心運營改進
? ? 通過數據分析可以精確把握電話呼入量的規律,可以安排坐席,比如,應該安排多少全職坐席,兼職坐席等。數據分析通過研究電話呼入量與星期幾的關系,與一天中時間段的關系,與企業重大市場行為的關系,甚至與天氣狀況,空氣污染之間的關系來解決這個問題。如果技術進一步提高,可以通過準確的語音數據分析理解客戶意圖。
關于風險控制度量有兩種情況:
- 風險根本沒辦法通過貨幣度量,是獨立于收入或者支出的另一個維度。
- 風險就是連接收入和支出的轉化器。
第一種風險
? ? 可能是人的健康甚至是生命,如果有一種可穿戴設備能夠在無創傷的情況下,測量各種血液指標(如血糖),這會為糖尿病患者帶來怎樣的福音?又如通過對人類基因組的數據分析,找到同某種致命癌癥強相關的基因,這能是否改變病人未來的命運?它的價值又如何?另外,重大設施設備的風險考慮,一座橋梁坍塌,礦井瓦斯爆炸,會失去多少生命?一個發電鍋爐爆炸,會造成多大損失,這些都不容易通過貨幣衡量。
? ? 不管如何,這些都是人們都不愿意接受的風險。
? ? 【風險應對】如果通過數據分析,時刻監控橋梁的情況,及時維修保養,那橋梁坍塌的概率就非常小。通過數據分析,及時了解發射塔的工作狀況,也許每年的故障率就會顯著下降。通過探頭數據,完全把握發電鍋爐的運行狀態,就可以避免鍋爐爆炸的風險。
第二種風險
? ? 用戶通過互聯網直接申請信用卡或其他金融信貸產品,或P2P,有些通過線下面簽才能提供的材料無法獲得,只能通過提高在線申請的門檻,減低通過率,這樣做可能會“錯殺”很多好人,為什么會“錯殺”,因為不了解他們,缺乏信任,無法實現監控。
? ? 【風險應對】通過獨特數據分析,幫助它更加準確去人哪些線上申請者是好人,壞人,銀行就可以放心大膽地給更多人放貸,進而增加收人。風控做得好,壞賬率就低,催收成本就會節省。
政府價值
政府角色:制定市場規則,掌握巨大的數據資源(公安,通信,醫療等),以及預算,政府的重大決策非常需要數據支持。
價值:數據分析能夠幫助政府更好地服務社會,讓普通公民的收入有所增加,支出有所降低,風險有所規避。
公民收入:增加就業,降低賦稅,提高福利等
- ? ? 通過對招聘廣告的文本分析,可以洞察市場需求,并提供相應的教育培訓機會,就有可能增加就業,帶動GDP.
- ? ? 通過數據分析,理解產品經理工作年限在薪酬上的體現。
- ? ? 通過數據分析,可以理解數據分析師應該具備什么樣的編程技巧,最好具備什么樣的大數據計算能力(Hadoop,Spark),以及這些專業技能在薪酬上的反映。
公民支出
- ? ? 醫保為例,大量公共資金聚集在一起,它的使用效率是否足夠高,是否有改進空間?是否存在一定數量騙保行為?能否通過數據分析將這些騙保行為人自動識別出來,并施以相應的懲罰教育措施。
- ? ? 醫院:能否通過對醫院的各種收入,支出數據分析,理解普通群眾看病貴的根本原因在哪里?昂貴的醫療費用所產生的收入到底去了哪些地方?能否進行相關制度建設?
公民風險
- ? ? 能否通過對各種公開以及非公開的刑偵數據的合理分析,更加準確地鎖定吸毒人群,尤其是有重大公共影響力的人群,并實施制止教育措施?
- ? ? 能否通過對各種數據的綜合分析,做到對恐怖事件的提前預警?能否通過對各種流量數據的監控,做到提前規避一些重大公共安全事件(如踩踏)。
可量化的參照系
量化:必須有明確數據,準確率提升xx%,? 成本支出降低xx%等。
參照系:在沒有數據分析情況下,當下成本支出,收入,風控如何? 實施了數據分析并且采取相關措施后,成本對比之前減少了多少,收入額外增加了多少,風險控制改善了多少?這樣對比量化才更有說服力來支撐數據分析決策的價值所在。
“預測不準是常態,預測準確是變態”
- ? ? 數據分析,模型預測就是應對數據帶有強烈不確定性。有價值的數據分析,就是要在不確定性中,盡可能發掘價值,因此預測不準必然是常態,需要找到一個合理的參照系。
- ? ? 如果一個數據被精確預測,這樣的分析就沒有價值。(eg. 今天是星期六,明天一定是星日)。
數據價值的轉化
回歸分析的“道”:把一個業務定義成一個數據可分析的問題
回歸分析的“術”:數據模型,線性,非線性,一元,多元,底維,高維等
數據問題
? ? Y: 是因變量,刻畫業務核心訴求,是科學研究的關鍵。
? ? X: 是解析Y的相關變量,一個或多個。
好人與壞人
? ? 征信:隔壁老王找我借錢,最后他還還是不還?如果還,定義老王的Y=0,說明老王是好人,如果不還,定義老王是Y=1,這說明老王是壞人。這就是征信的核心業務訴求,即因變量Y。
回歸分析的任務:通過研究X和Y的相關關系,嘗試去解析Y的目的。
? ? 在上面的例子中,當老王找我借錢的那一刻,我并不知道老王將來是否會還錢,就是我不知道老王的Y,怎么辦?我只能通過當時能夠看到的,關于老王的X,去預測老王的Y。這種預測是否100%準確? 不可能,但能夠做得比拍腦袋準確,這是非常有可能的.。
? ? 因此,我們需要尋找優質的X, 比如老王的實物資產,老王的收入,老王的社交資產等。
回歸分析的“術”
對參數化的線性回歸模型來說,完成三個重要使命
1. 識別并判斷哪些X變量是同Y真的相關,哪些不會。 -- 變量選擇
? ? 排除不相關的變量,沒有用的變量不會提高Y的預測模型。
2. 有用的X變量同Y的相關關系是 +(正) 還是 -(負)
? ? 假如對于老王借貸還款行為,老王的股票收入同他的還款行為可能性是正(+)相關?還是負(-)相關?如果是正相關,老王的股票收入越高,還款能力越強,我越敢借給他,反之就越不敢借錢給他。
3. 賦予不同X的權重,即不同的回歸系數,進而可以知道不同變量之間的相對重要性。
? ? 假如老王,老李都找我借錢,老王月基本工資X1=1(萬元),但股票收入x2=0; 老李剛好相反,X1=0, X2=1(萬元),請問哪一個還款能力更強? 月收入同為一萬元,但他們的還款能力恐怕是不同的。通過數據建模,賦予X1,X2不同的權值,也就是不同的回歸系數,這樣就容易計算他們還款能力。
搞清楚客戶的需求
誰是我們的客戶?數據分析需求是誰提出來的? 為什么自己的需求還說不清楚?
- ? ? 1都不是我想要的
- ? ? 鬼才知道“客戶價值” : 價值不是已經實現的過去價值,還是沒有發生的未來的預期價值。
- ? ? 跟收入過不去:理解數據之于客戶的價值,首先得摸清楚客戶的盈利模式。
對于大多數人沒有受過回歸分析的理念,因此無法洞見自己正在操心的業務問題,其實數據是可分析的,只需要把Y定義清楚,給一些關于X的想法,剩下的就交給數據分析人員全力以赴就可以了。
數據之于企業的價值,最需要被普及教育的不是數據分析部門,而是業務部門。
員都使用一種回歸分析的語言,需求才可能被說清楚。
數據分析風口(未來)
推動統計學發展的產業
? ? 互聯網,順應產業變革,大勢所趨。
推動統計學發展的技術
? ? 技術進步,產生大量的數據,數據蘊藏著某些重要的秘密,具有重要的價值。
推動統計學發展的制度環境
? ? 國家政策戰略方針
統計學發展的大趨勢:從不以任何個人興趣愛好為轉移,而是有產業變革,技術進步,以及制度環境所決定
風口所在:
互聯網:移動互聯網產生流量什么獨特數據? 價值是什么?如何研究
例如,微信:產生的數據是網格結構數據,刻畫用戶之間的社交關系。對統計分析而言,這帶來的最根本變化就是讓信息沿著網絡結構開始流通。
制造業
? ? 特點:中國是全世界制造中心,亟待產業升級,進入工業4.0時代;與世界制造中心相對應的是,對中國制造業的數據,我們極其無知,遠遠落后于互聯網。
? ? 原因:傳統制造業數據采集困難;互聯網故事太搶眼。
? ? 現狀(蓄勢待發):物聯網技術越來越成熟,采集數據越來越方便;傳統制造業體量巨大。
對傳統制造業,數據分析很可能不以消費者為第一核心,而是以流程再造,產品改進,成本節省為第一核心。
應對風口機遇
? ? 學習業務知識,了解應用場景,實踐統計學理論。在游戲,電商,社交,廣告,投資,金融,征信,可穿戴設備,車聯網,設備監控,政府,醫療等行業領域大有實踐施展的廣闊舞臺。
? ? 醫療健康,互聯網,物聯網就是風口所在,順勢而為,你做好準備了嗎?
?
注,本文內容主要整理自《數據思維-從數據分析到商業價值》 王漢生
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的【大数据】朴素的数据价值观的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【分享】老调重弹,既懂技术又懂管理的人才
- 下一篇: 【项目管理】接手一支技术团队,你会做些哪