数据分析和数据挖掘的理论研究必要性
2019獨角獸企業重金招聘Python工程師標準>>>
數據分析,并不抽象,傳統的數據分析,包括很多。例如信號處理中的DCT,濾波,IDCT變換。由于確定了濾波窗口的特性,使得對一個時間軸上的數據進行了頻譜處理,增強了我們希望的信息,弱化了我們不想要的噪聲。這就是數據分析。而如果這個濾波窗口的參數在根據期望目標而改變時,以檢測期望的目標在數據中是否存在,則是數據挖掘。例如我們嘗試判斷在不同頻帶中是否有,具備有機組合的頻率信號存在。或許是火星人‘s 媽喊他回家吃飯的信號呢?哈。
我不想和別人討論狹義的數據分析或數據挖掘,例如,指定什么數據流程,指定什么數據處理工具。如同oracle,DB2才是數據庫,mysql則不是數據庫一樣,有點偏激了。這會如同除了C就不是編程一樣極端,記得嵌入式有個uc/OS,我也看過部分代碼。嚴格說,只是個OS的kernel,但是也仍然是OS,OS不代表一定要談linux, windows。早期的DOS也是OS。
如果一個團隊,一個從業者,將數據分析,數據挖掘這個業務行為混為某個工具,某個設計流程規范,那么恐怕他們要被最早的數據分析和數據挖掘的技術人員BS了。就是無線電監聽信號的模擬電子工程師們。
這里簡單的再說兩個例子。
1、例如假設京東商城,在上海,存在三個倉庫,分別在北,西,南三個外環以外的地方。任意倉庫都不能滿足所有物品的擺放。那么如何規劃,使得物品能夠有效的擺放,以滿足更多用戶的一次性采購需求,而不要額外增加運輸成本。
這不是個系統可預先規劃的問題。因為,結論和客戶的動態行為有關聯。這里將客戶的行為,經過分析,反過來影響系統運行狀態,就是數據分析和數據挖掘區別其他數據處理的差異。也是數據分析和數據挖掘和數據庫化的差異所在。
不妨可以簡單的說一句,任何數據庫只能作為數據分析或數據挖掘的一個可選擇工具,而不能作為數據分析和數據挖掘的必要條件。更別提指定的數據庫。庫化操作是可預先規劃的,而特別是數據挖掘是無法預先確認的。
這里不再討論數據分析和數據挖掘的區別,另有水貼已討論。
2、例如假設一個客戶周末去百貨,通常會不只買一個物品。那么什么樣的物品組合銷售(包括優惠)的方式,即能讓客戶感到實惠,也提高了銷售額和利潤率?這是即定向廣告之后,定向營銷的新研究內容。任何成熟的案例,有價值的是抽象出來的理論方法,而不是案例中的數據結論和案例處理中使用的工具。
這個也不是系統可預先規劃的問題。而是動態分析的。
不過,以上兩點,均存在一個數據來源問題。但是數據來源并不屬于數據挖掘,數據分析本身。有些數據是系統自身產生的,很容易收集,有些數據則反之,例如第2個案例。百貨具備統一收銀系統,而商場并不必備,此處對后者會引出數據從何來的問題。包括數據準確性的問題。但這些都不屬于數據分析和數據挖掘本身所要面對的問題。
數據分析,和數據挖掘,最有價值的在于解決方案的有效性。有效性則需要足夠的理論作為支撐,專設這個BLOG分類,就是希望從集合論開始梳理,并將集合論補充到現有圖論中人為描述過多的定義中。由此另更多的方案具備一定的理論基礎。希望要理解,此處的理論,并不是所謂“聚類,分類,關聯學習”等名詞手段。聚類分類,濾波,神經網絡,等等,都是一種手段的名詞,不會因為名稱時髦而有價值。有價值的在于具備良好的理論支撐,哪怕理論解釋復雜,如下談論的模糊類型的理論描述。
特別是數據挖掘,和數據統計很像,同樣也存在這一個悖論。即,我知故我在,我在故我知。簡單說,我知道數據確實存在,由此我做了很多方法來從數據中找到我的結論。數據挖掘不是金礦挖掘,必須要在指定坑里挖到金子。數據挖掘的價值在于,不同角度的觀測,是否有具備可價值化的信息,同時對同一個角度觀測,可以判斷是否存在價值化的信息。如果形而上學的為了挖掘而挖掘。努力的構造算法,使用工具,是為了證明自身的觀測角度正確,那么對最終客戶又有何用。
如下:
1、一個數據統計表格中有兩個選項。你對這款產品的感受是: 1、好,2、還不錯。
由這種題目,獲得的數據,不考慮是否真實有效。但得出的統計結果,始終會帶有設計者的傾向性,至少我的產品不差。如果存在理論基礎,例如集合論的分析,命題中并不是在觀測空間中存在互補,這個命題則需要縮小觀測空間,同時增補對空間的額外約束條件。就是,針對不排斥此產品的人群,好的百分比,還不錯的百分比。而不能簡單說,根據統計,覺得非常滿意(就是好)的人群百分比為多少多少。這對實際客戶有價值嗎?沒有,甚至會迷惑和傷害到客戶未來的業務開展。
而數據挖掘,和數據統計之所以很象,是數據挖掘需要帶有主觀偏好性。例如古代人在一個稀土礦中找金子,金子沒找到,不妨礙現代人挖稀土。同樣的數據,有沒有價值,在于挖掘者根據需求來做不同的篩選判斷。這又需要理論進行嚴格的外部約束,以防止自娛自樂的情況出現。
例如,第一個例子,京東的例子,數據挖掘的對象是“客戶的大概率采購集中度是否存在?從而獲得以通過調整倉儲的存儲方式以優化成本的方法”。
過小的樣本會出現的結論的實際概率并不大,甚至不如靜態規劃更為有效的情況。
過短的樣本窗口會導致,倉儲方案調整密集,而額外帶來不必要的成本。
過大的樣本會導致信息均衡化(結論就是不需要調整)無用論的情況。
過長的窗口,會導致調整過于緩慢,好時是好,差時周期也不短的現象。
如果4個人,每個人堅持固守上述4個方法,估計最終結果就是不了了之。做等于沒做,所以不如不做,因為誰的結論中都有缺陷。出現這種情況,如果沒有理論支撐,則沒有辦法區分每個人的不同方法中,好壞的內容。不可能某個人的方法中任何信息都是有價值的,也不可能所有的信息和手段都沒有價值。那么評價標準難道是老板的喜好?老板唯一喜好的是省錢,省心,而不是到處當裁判,落個偏袒美女之名。其實評價的標準是在于成本的優化。不擇手段的在保證客戶體驗度下,最大可能的優化成本。而前面的一個?只是一個選擇性的條件。后面的陳述才是目標。數據挖掘沒有動態修正觀測期望的動作,就不是挖掘了。
我是個工程師,不是個理論研究者。但是很多理論雖然抽象,對實際工程生產卻具備重要的指導作用。甚至包括那些不可細分一一對應的模糊理論。這種指導作用更大的來源于告訴你,什么不可為,而不是什么可為。例如,上面假設4個人都沒有錯,那么則告訴我們不能通過采購集中度的概率方式來判斷,因為基本等概率。以此不可為,則可以引出其他再次數據挖掘的策略。
說到理論對工程的價值,在于限制,而非指導,例如,我的本行是做算法優化。充分利用系統資源,無論軟件硬件,是我的手段,以在穩定性,健壯性的前提下,盡可能的提升系統的速度或規模。但是系統資源我只使用85%左右。你讓我一一說明,為什么86%就不行,我沒有辦法。但我可以理論并且聯系具體實例的告訴你。系統資源是組合資源。組合過程中存在成本。當系統資源占用過多時,瞬時負載過大,也就是傳說中的峰值達到時,沒有一定的系統資源余量,保證組合過程的成本得以消化,會使得系統負載能力迅速下降。
哈。你一定會覺得很抽象。我舉2個例子,就不說我擅長的C的算法設計了。談下抽象理論對實際的工作的意義和不可一一對應的現實。
1、馬路上,車越多,開的越慢。當然車越少,開的越快。難道是最快和最慢的車速下,馬路上的流量最大嗎?顯然不是,這個是常識,而且大家的常識是對的。車最少,開的最快的時候,和車最多,馬路停車場狀態下,開的最慢的時候,都不是車網流量最大的時候。
即便每輛車之間沒有復雜的同步關系,對資源站用也是分空間,分時間的,夠簡單了吧,連死鎖都沒有,除了十字路口。但車就是車,不是火車的車廂。當車與車的距離過于緊密時,車速會急速下降。再加點復雜的,車網流量不同壓力下,紅綠燈的等候時間的規劃問題。這就是個模糊理論。
2、企業支付大量資金做廣告。幾乎很難找到一個具體自然人,是因為看了這個廣告,決定購買產品的,就是有,這個人群對產品購買的總貢獻度也不大。那么廣告沒有必要嗎?這么多企業做廣告,談不上每家的策略都是對的,至少整體,廣告行為是有存在價值的。但是如果沒有理論的支撐,行為學,心理學,社會學(當然這些不是我的方向),企業做廣告幾乎和賭博沒有區別。
但專業的廣告公司,和不專業的廣告公司,不是以所用的流程,工具,手段來區分的。而是在于誰更多的將理論應用,通過理論,決策什么可為,什么不可為,使得企業的投入,更大概率的獲取對應的回報。
數據分析和數據挖掘同樣需要理論進行支撐。重復,別和我提工具,語言和流程。我本身是做系統優化的。系統本身是我的優化目標。而不是針對一個具體的系統、具體的工具、具體的流程,來靜態的實現一個任務指標。殺雞焉牛刀?我只在討論理論,并幫助你選擇殺雞的方式和對刀的態度。因為這樣對實際客戶更有價值。
最后,簡單重復一句話:理論的力量在于讓你遠離不合理的危險區域,而不是直接幫你達到目標,但這并不妨礙理論對你價值存在。轉載于:https://my.oschina.net/luckystar/blog/56190
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的数据分析和数据挖掘的理论研究必要性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习简明教程系列 —— 基础知识(合
- 下一篇: poj 3125 Printer Que