详解数据科学与数理统计的基本概念
導讀:數據分析要熟練掌握數據科學與數理統計的基本概念。
作者:張秋劍 張浩 周大川 常國珍
來源:大數據DT(ID:hzdashuju)
01 數據科學的基本概念
隨著計算機技術的發展和有用數據的快速增多,數據科學應運而生。數據科學的總體目標是在已有數據集的基礎上,通過特定的算法提取信息,并將其轉化為可理解的知識以輔助做決策。
例如,北京****信用管理有限公司是一家典型的數據公司,有兩個主要業務:第一個是為會員機構提供數據加工服務,第二個是提供反欺詐與信用風險管理的產品和咨詢服務。
第一個業務的主要工作內容是為會員機構清洗數據,并提供數據存儲與管理服務。按照經濟學的觀點,這類業務的附加價值極低,只能獲得社會一般勞動報酬。
第二個業務屬于增值服務,數據科學工作者將數據與金融借貸的業務知識相結合,為會員機構提供風控方面的咨詢服務。這類業務的邊際報酬在客戶量達到一定閾值之后是遞增的,即一元的投入會獲得高于一元的產出,可以為企業高筑商業的安全邊際。
從這家公司的業務中可以看出,數據是基礎,數據科學是研發,不做研發的企業只能成為代工廠。
數據科學的工作范式見圖1-1,以后我們的工作都是在重復這些步驟。
▲圖1-1 數據科學的工作范式
我們再來看一個例子。有一個淘寶商家希望通過促銷的方式激活沉默客戶。這里的“決策和行動”就是向一些客戶發放打折券。打折券不應該是隨意發放的,比如黏性很高的客戶沒有打折券也會持續購買。
為了明確應該向哪些客戶發放打折券,商家需要了解關于客戶的三個知識:客戶的流失可能性、客戶價值、客戶對打折券的興趣。這些關于客戶的知識往往被稱為客戶標簽。根據獲取標簽的難度,客戶標簽可以分為基礎、統計、模型三種。
基礎標簽可以從原始數據直接獲取,比如性別、年齡段、職業,可以供決策者使用,等價于信息和數據。
統計標簽是通過原始數據匯總得到的,比如獲得客戶的價值標簽需要將客戶過去一段時間內在企業的所有消費進行匯總,并扣除消耗的成本。統計標簽通過對原始數據進行簡單的描述性統計分析獲得。
模型標簽比較復雜,是在基礎標簽、統計標簽和已有的模型標簽的基礎上,通過構建數據挖掘模型得到的,比如客戶的流失概率、違約概率的標簽。
具體到本例,客戶的流失可能性、客戶價值、客戶對打折券的興趣這三個標簽都屬于統計標簽。表1-1所示是該商家的交易流水表,記錄了每位客戶每筆交易的時間、金額和交易類型。從這些交易流水數據中獲取信息的最簡單而通用的方法被稱為RFM模型。
▼表1-1 淘寶商家的交易流水
圖1-2是根據表1-1的數據所做的RFM模型。RFM模型將每個信息進行二次分類,得到客戶分群。
R(最后一次消費時間)標簽可以代表客戶的流失可能性,離最后一次消費時間越久的客戶的流失可能性越高。
M(一段時期內消費的總金額或平均金額)標簽可以代表客戶的價值,消費額高的客戶的價值高,因此可以初步確定重要保持和重要挽留客戶都屬于應該營銷的客戶。
最后一個標簽F(一段時期內消費的頻次)代表客戶對打折券的興趣。
直接使用RFM模型是不能滿足要求的,我們可以按照交易類型,計算每個客戶所有交易類型中購買特價產品的F(一段時期內消費的頻次)或M的占比。
這里有人會開始糾結,兩個標簽該選哪個呢?其實,“對打折券的興趣”是一個概念,我們可以用多種方法得到不同的標簽來表示這個概念。如果你追求完美,可以使用后續章節中講的主成分方法進行指標合成。
▲圖1-2 RFM模型示例
經過以上數據分析,我們終于可以進行有針對性的折扣券營銷了。細心的讀者可以發現,數據分析是按照圖1-1所示的工作范式從右至左規劃和分析、從左至右實際操作的。本案例比較簡單,數據量不大,使用Excel進行數據分析即可。
不過,當一個企業的年銷售額達到幾十億元,活躍客戶量達到幾十萬時,其就必須聘請專業的數據科學工作者,使用復雜的算法和專業的分析工具了。
與數據科學相關的知識涉及多個學科和領域,包括統計學、數據挖掘、模式識別、人工智能(機器學習)、數據庫等,如圖1-3所示。數據科學的算法來源比較復雜,所以同一概念在不同領域的稱呼不一樣。為了便于讀者將來與不同領域的專家溝通,我們力爭列出出現的術語在不同領域對應的稱呼。
▲圖1-3 數據科學知識領域
數據庫
數據是數據科學的基礎,任何數據分析都離不開數據。如今信息化建設日趨完善,數據庫作為存儲數據的工具,被數據分析人員廣泛使用。
Python和R之類的工具都是內存計算,難以處理太大的數據。因此在對數據庫中的數據進行分析前,數據分析師需要借助Oracle之類的數據庫工具得到待分析的數據,并在數據庫內進行適當的清洗和轉換。即使在大數據平臺上做數據分析,大量的數據也是在Hive或Impala中處理后才被導入Spark進行建模。
統計學
統計學一直被認為是針對小數據的數據分析方法,不過其仍舊在數據科學領域擔任重要的角色,比如對數據進行抽樣、描述性分析、結果檢驗等。目前商業智能中的數據可視化技術絕大多數使用的是統計學中的描述性分析。而變量降維、客戶分群主要還是采用多元統計學中的主成分分析和聚類算法。
人工智能/機器學習/模式識別
一些數據科學方法起源于早期科技人員對計算機人工智能的研究,比如神經網絡算法是模仿人類神經系統運作的,不僅可以通過訓練數據進行學習,而且能根據學習的結果對未知的數據進行預測。
很多人視數學為進入數據科學的攔路虎,這是完全沒有必要的。在一開始接觸數據科學時,我們完全可以從業務需求出發,以最簡單的方法完成工作任務。
02 數理統計技術
數理統計博大精深,但入門并不難。只要掌握本節中介紹的描述性統計分析和統計推斷的知識,你便可應對絕大部分工作。
1. 描述性統計分析
描述性統計分析是每個人幾乎都會使用的方法,比如新聞聯播中提及的人民收入是均值,而不是每個人的收入。企業財務年報中經常提及的是年收入、利潤總額,而不是每一筆交易的數據。這些平均數、總和就是統計量。
描述性統計分析就是從總體數據中提煉變量的主要信息,即統計量。日常的業務分析報告就是通過標準的描述性統計分析方法完成的。做這類分析時只要明確分析的主題和可能的影響因素,即可確定可量化主題和影響因素的指標,然后根據這些指標的度量類型選擇適用的統計表和統計圖進行信息呈現。圖1-4展現了統計表的類型和對應的柱形圖。
▲圖1-4 描述性統計分析方法
以圖1-5為例,這是某知名商業智能軟件的截圖,其實就是圖1-4中方法的運用。比如圖中“普通小學基本情況”報表就是“匯總表”的直接運用;“普通小學專任教師數”是柱形圖的變體,使用博士帽的數量替代柱高;“各省份小學學校數量占比”中使用氣泡的大小代表各省小學學校數量的占比情況。
▲圖1-5 某商業智能軟件的截圖
剩下的難點就是理解業務和尋找數據了,這要靠多讀分析報告、積累業務經驗來解決。
2. 統計推斷與統計建模
統計推斷及統計建模的含義是建立解釋變量與被解釋變量之間可解釋的、穩定的,最好是具有因果關系的表達式。在模型運用時,將解釋變量帶入該表達式可以預測每個個體被解釋變量的均值。目前,針對統計推斷,業界存在兩個誤解。
統計推斷無用論
認為大數據時代只做描述性統計分析即可,不需要做統計推斷。由于總體有時間和空間兩個維度,即使通過大容量與高速并行處理得到空間上的總體,也永遠無法獲取時間上的總體,因為需要預測的總是新的客戶或新的需求。
更為重要的是,在數據科學體系中,統計推斷的算法往往是復雜的數據挖掘與人工智能算法的基礎。比如特征工程中大量使用統計推斷算法進行特征創造與特征提取。
學習統計推斷的產出/投入比低
深度學習大行其道的關鍵點是產出/投入比高。實踐表明,具有高等數學基礎的學生可以通過兩個月的強化訓練掌握深度學習算法并投入生產,而培養同樣基礎的人開發可落地的商業統計模型的時間至少是半年,原因在于統計推斷的算法是根據分析變量的度量類型定制開發的,需要分析人員對各類指標的分布類型有所認識,合理選擇算法。
而深度學習算法是通用的,可以在一個框架下完成所有任務。聽上去當然后者的投入產出比更高。但是,效率與風險往往是共存的。目前,頂尖AI公司的模型開發人員發現一個現象:解決同樣的問題,統計模型開發周期長而更新頻次低;深度學習算法開發周期短而優化頻次高。
過去,深度學習所鼓吹的實時優化造成企業過度的人員投入,使得企業綜合受益不一定高。而我們的目的之一就在于降低統計推斷學習的成本。讀者將來只要按照表1-2所示方法分析,即可大大縮減學習時間。
▼表1-2 統計推斷與統計建模方法
關于作者:張秋劍,就職于騰訊云金融拓展中心,從事微信財富營銷管理、數據中臺、AI應用等解決方案拓展工作,研究方向包括數字化轉型、創新實踐等。
張浩,曾任騰訊云金融首席架構師和星環科技金融行業技術總監,主要從事大數據、人工智能、云計算、區塊鏈、聯邦學習等相關技術研發與產品設計,具有豐富的企業架構設計、企業數字化戰略轉型運營與業務咨詢經驗。
周大川,就職于某中央金融企業金融科技研發中心,主要從事企業級數據平臺開發、核心業務平臺建設、AI賦能金融科技創新等工作,具有豐富的新一代金融業務系統建設經驗。
常國珍,曾任畢馬威咨詢大數據總監,具有近20年數據挖掘、精益數據治理、數字化運營咨詢經驗,是金融信用風險、反欺詐和反洗錢算法領域的專家。
本文摘編自《金融商業數據分析:基于Python和SAS》,經出版方授權發布。(ISBN:9787111695837)
《金融商業數據分析:基于Python和SAS》
點擊上圖了解及購買
轉載請聯系微信:DoctorData
推薦語:騰訊云等資深數據架構師、商業分析師20年經驗,全流程講解金融數據分析思路、方法、技巧,快速入門到精通。
劃重點👇
干貨直達👇
手把手教你搞定4類數據清洗操作
建議收藏!數據中臺行業發展概況及展望
什么是元宇宙、新基建、賽博空間?7個最火科技名詞解釋,都在這里了
詳解6G系統數據治理方案的設計要點和原則
更多精彩👇
在公眾號對話框輸入以下關鍵詞
查看更多優質內容!
讀書?|?書單?|?干貨?|?講明白?|?神操作?|?手把手
大數據?|?云計算?|?數據庫?|?Python?|?爬蟲?|?可視化
AI?|?人工智能?|?機器學習?|?深度學習?|?NLP
5G?|?中臺?|?用戶畫像?|?數學?|?算法?|?數字孿生
據統計,99%的大咖都關注了這個公眾號
👇
總結
以上是生活随笔為你收集整理的详解数据科学与数理统计的基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一条SQL引发的“血案”:与SQL优化相
- 下一篇: 这些“震惊世界的新发现”,原来都是科学界