神策沙龙回顾:大数据技术和金融、房产、理财的深度结合
在大數據井噴的時代,各行各業所產生的數據就是一座座金礦,如何設計大數據應用,更有效、創新的發掘大數據的價值,也是行業內一直在追尋并探索的答案。
12月17日,由神策數據和極客幫、InfoQ 共同策劃的技術沙龍在中關村成功舉辦,來自諸葛找房、神策數據、91金融和51理財的技術專家分享了大數據開發場景,建模,結果應用,擴展等技術內容,全面展示互聯網金融、房產領域大數據的分析方法和價值,幫助參會者尋找新的數據利用突破點和應用模式。以下是分享內容的簡單整理。
諸葛找房合伙人&CTO 張文戰根據自身所在的領域,分享了諸葛找房的數據體系和架構(如下圖),BASIC 里面包括很基礎設施,URL META 適用來建立全國唯一房源編號的;房價預測基礎數據來源于房產政策性信息、歷史房價預估偏差、歷史真實成交價格、歷史掛牌價,起到一個參考的作用。樓盤字典這部分包含樓盤基本信息、兇宅信息、戶型圖、歷史成交記錄等信息。虛假房源字典則是房源質量評估系統評分較低的房源庫。
中介識別系統包括模式識別、虛假信息、中介號碼庫、用戶?行為分析等,其目的就是為了識別出虛假房源:房源本身不存在、房源已售、中介冒充個人、描述不真實、價格異常等房屋信息。識別的技術方式包括通過成交記錄、圖片識別率、房源相似度等手段來識別。
為了獲取更多有效數據,數據挖掘系統起到了至關重要的作用,數據挖掘系統的構成包括:數據源,數據預處理系統,特征?程,數據挖掘平臺,算法庫,算法評估系統,算法結果反饋及優化系統。
數據源:鏈家、我愛我家、愛屋及屋、搜房、豆瓣、貼吧、建委、合作商;
數據挖掘平臺:Job 調度、大數據可視化;
數據預處理系統:異構數據源、結構化處理、數據清洗;
特征工程:數據和特征決定數據挖掘上限;
算法庫:統一定義 input、output,靈活適應;
算法評估及反饋優化系統:點擊、轉化、回爐策略、正負樣本學習擬合;
數據挖掘體系的算法庫的功能在于提供各種算法包,統?定義了輸?與輸出規范,適用于相對應的數據挖掘工作。這其中就有三個基礎版本:單機版,Hadoop 版,Spark 版,適用于不同的場景。而具體使用到的技術分類如下:
分類:LR,SVM,樸素貝葉斯,決策樹,HMM
聚類:k-means,Dirichlet Process,Minhash,Canopy,Spectral
回歸:Linear Regression
特征選擇:SVD,PCA,ICA
關聯規則:FP growth
推薦算法:ItemCF
時間序列:exponential smoothing
神策分析是一個支持私有化部署的用戶行為分析產品,支持全端埋點、海量數據任意維度的實時分析,并且還提供了完全開放的 PaaS 平臺特性。神策數據聯合創始人兼首席架構師付力力介紹了神策分析的產品理念,以及由此所決定的技術選型和架構設計的思路,并對幾個核心模塊的實現進行深度解析。
在設計之初,就要考慮客戶需求,產品功能,技術選型等因素,同時還要考慮產品的私有化部署屬性,對數據的安全與隱私、數據資產積累、數據的深度應用與二次開發都有著很高的要求。這其中的核心技術決策包括:可以私有化部署,并優化運維部署的成本;以開源方案為主,便于復用和客戶二次開發;數據模型盡量簡潔,減少 ETL 代價和使用成本;每天十億級別數據量下,秒級導入,秒級查詢;存儲明細數據,隨用隨查。
關于技術實現,它的整個流程是這樣的,先是數據接入,數據傳輸,然后是數據建模/存儲,緊接著是數據查詢,最后是數據可視化/反饋,將分析結果展示出來。整個架構圖如下:
在前端埋點上,神策提供了三種不同的埋點方式,第一個是默認埋點:自動采集所有的頁面瀏覽、控件操作、App啟動等;可視化埋點:采集指定的控件操作,無法自定義屬性;代碼埋點:自定義任意的事件和屬性。在數據傳輸方面,使用了 Nginx、Kafka 等開源組件,其中 Nginx 作為據接收層,保證接入層的性能和高可用,而 Kafka 則提供了高可用的分布式消息隊列,用作導入過程中的數據緩沖。
在數據存儲方面,神策使用了 Kudu,一個新的開源存儲引擎,用作 WOS (Write Optimized Store),來保證秒級的實時寫入。數據查詢上則主要通過神策自己的 QueryEngine 來生成 SQL,并提交給 Impala 執行。
付力力最后說到,由于神策分析主要是部署在客戶的私有網絡環境里,這樣就需要一個強大的擁有自我修復功能的監控系統,在無人干預的情況下盡可能的保證系統的穩定運行。
來自91金融的 CTO 宋傳勝介紹了在互聯網廣告以及互聯網金融領域,用戶畫像地位很重要,應用也很廣泛。但是在獨立的第三方金融系統中,如何獲得大數據,并且通過大數據的分布式算法對用戶進行畫像分類和畫像分析,是很關鍵的技術點。
首先是收集有價值的數據,來源是通過用戶在各種網絡設備上的行為沉淀的數據,金融機構會選擇合適的數據,識別出同一個用戶的不同行為,然后是建立模型,并且驗證數據的可用性。為了避免數據重復,所以要確定用戶的唯一 ID,采集不同維度的用戶數據,包括結構化和非結構化的數據集。整個過程依靠任務調度系統進行數據挖掘,收集上來的數據涵蓋 PV/UV、訪問時長、地域、時間、跳出率、停留時間等等。
除此之外,還會有第三方數據采集的途徑,包括桌面軟件的 Cookie 植入、桌面安裝軟件列表特征抽取、提取 URL History,特征抽取、網站域名和分類、通過模板抽取查詢詞、Category 抽取、提取鍵盤輸入信息等等。電商和社交環境下,關鍵的數據收集基本上來自類目、購物車、收藏、支付等等。
宋傳勝重點講了數據挖掘模型的構建內容,LDA 文檔主題模型涵蓋用戶文檔、特征詞匯(類目,行為,查詢,網址)、主題屬性;通過人工標注的方式來選取有用的數據;之后是將主題屬性代入模型實現迭代訓練。例如像識別羊毛客這樣的風控應用,就可以識別出IP屬性(代理、VPN、網關、服務器),以及用戶的行為特征,包括發生時間,行為間隔等等。
總結
以上是生活随笔為你收集整理的神策沙龙回顾:大数据技术和金融、房产、理财的深度结合的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 点点客李新 | 移动社交电商行业案例干货
- 下一篇: 杏树林孙文亮:在线医疗数据驱动实战