【2016年第3期】中国电信大数据应用实践
張宇中,李名洋
中國電信股份有限公司云計算分公司
中圖分類號:TP 399 ??????文獻標識碼: A
doi: 10.11959/j.issn.2096-0271. 2016036
引用格式:張宇中, 李名洋. 中國電信大數據應用實踐[J]. 大數據, 2016, 2(3): 113-120.
ZHANG Y Z, LI M Y.?Application of big data in China Telecom[J]. Big Data Research,?
1? 引言
大數據的應用隨著計算技術的進步、互聯網的爆發、科學計算的需求而高速發展。各類互聯網巨頭公司積累了大量運營、用戶和交易數據,并籌建了大量的運算資源。它們的各類商業目的推動了大數據處理技術的發展。
對中國電信運營商而言,三網總的活躍移動連接超過10億,其中超六成終端為智能終端,每天各類應用和業務被使用,持續產生大量的數據流。用戶通過智能終端的通信和數據業務使用各類應用,使移動網絡成為大數據存儲、流動的天然載體。運營商不僅擁有傳統的用戶基礎信息、網絡數據,還有通過管道功能獲取的用戶互聯網活動數據,用戶信息全面真實。
而這些數據的利用面臨著諸多的問題。從數據的歸屬權和隱私控制方面看,數據擁有權和使用權的劃分、用戶授權方式、法律風險的防控等,對大數據行業的發展方向有較大的影響;從數據的有效性看,在大量數據中尋找關聯信息并驗證其有效性,是非常巨大的工作量;從業務邏輯看,對于運營商來講,將原本用于經營的數據產生機制用于大數據領域,需要從硬件、軟件、人才諸方面進行調整,甚至可能面臨大的變革。
大數據的應用問題不僅僅是一個企業內部的事情,也是整個行業乃至跨行業的事情。從軟硬件方面看,大數據應用涉及硬件設施、基礎軟件、應用軟件和信息服務等方面;從數據生產流程看,大數據應用涉及數據生成與采集、數據存儲、數據處理和數據應用。在運營商核心數據資源的外圍,聚集著大量各類型、各行業的支撐公司、上下游企業和合作伙伴。
?
2? 電信大數據發展概述
2.1? 中國電信的大數據業務
中國電信大數據業務的開展依托于中國電信云計算分公司,由集團市場部直接管理。中國電信2014年開始啟動全國大數據的集約化運營,著力推進全集團數據匯集和發掘應用,實現大數據應用產業化、規模化發展。根據集團規劃,云計算分公司作為大數據運營支撐單位,承擔大數據產品集約開發、運營、銷售、服務和經營支撐工作。
2.2? 云計算分公司大數據工作的主要內容
中國電信大數據數量巨大、來源分散、格式多樣,對系統的數據處理能力和分析挖掘能力提出了巨大挑戰,需要新技術將龐雜無序的數據進行清洗、處理、分析和集成,變成有用的信息,與行業應用融合產生價值。目前這主要涉及以下4個方面的工作內容。
● 建設大數據能力平臺。實現全網數據集約(接入、計算、存儲)及數據資產集中管理維護。
● 建設海量數據處理所需的五大基礎能力。包括數據傳導(被動/主動接入能力、數據傳導、數據開放)、存儲(結構化、非結構)、計算(批量、流式)、安全運營(提供對數據、系統安全運營保障的手段)、資源調度(協同協調、資源隔離、能力配額)。
● 數據生產線技術架構設計。適應電信大數據兩種業務數據模型,包括批量—調度系統:基礎表、母表、子表、基礎服務層;實時—消息系統:基礎拓撲、融合拓撲、基礎服務層。
● 產品應用體系設計。選擇市場需求明確、市場規模大、應用模式清晰、適合電信大數據特點的領域建設產品應用平臺。
中國電信大數據能力產品與應用體系如圖1所示。
圖 1?? 中國電信大數據能力產品與應用體系
3 ?電信大數據的特點與開發利用
3.1? 電信大數據的構成與特點
(1)中國電信大數據的構成
中國電信的數據優勢在于數據的廣度和深度。中國電信具有海量數據基數,包括2億手機用戶和1.5億寬帶用戶(覆蓋了全國70%的寬帶用戶上網份額)產生的數據。此外,還有IPTV、Wi-Fi熱點數據。這些數據涵蓋運營商全業務形態。同時,中國電信還擁有大量第三方基礎合作數據。中國電信自有數據主要包括IT類數據、網絡類數據、信令數據和終端數據。合作數據包括地圖POI(興趣點)數據、金融征信類數據、行業數據等。
(2)電信大數據的特點
中國電信擁有大量真實的用戶。真實有效的數據能夠支撐可信度高的分析與結論,還可進行多維度精細用戶群體分析。中國電信作為互聯網接入服務提供商,承載了國內電信用戶各類業務數據,涵蓋通信數據、業務數據、互聯網數據、信令數據等方面,提供全方位的服務,數據應用的可靠性高。同時,中國電信用戶本身樣本的覆蓋具有無偏差的特點,可以有效保證分析的準確度。
3.2? 電信大數據的開發原則
完善的隱私保護、提供安全可靠的服務、平臺級的開發能力、支撐行業企業發展、構建健康大數據生態環境,是電信大數據開發與利用的基本原則。
(1)保護用戶隱私是大數據開發的前提
保護隱私是國家和法律對公共基礎設施提供者的硬性約束,也是電信行業的基本要求。在大數據開發過程中,采用行業內最高的安全等級存儲和處理用戶數據,將原始數據對外全方位屏蔽,不會針對個體進行分析,所有結果僅進行狀態匹配和標簽輸出,而且所有的數據分析都在中國電信自有平臺上進行。
(2)為公眾和社會服務是中國電信的理念
作為一個大型央企,廣泛促進社會福利水平,保護公眾隱私不受侵犯,為企業和個人提供高效數據服務,提升數據社會價值,是中國電信在大數據開發主要考慮的方面。
(3)建設專有的大數據應用平臺進行開發
集約地整合、處理、分析所有電信端數據,通過搭建自有服務器資源,保證電信團隊、合作企業有足夠的資源在電信的平臺上做深入的數據分析。能夠為企業級應用提供從數據整合,到計算能力、發布平臺全流程的服務。
(4)廣泛的業務合作,支撐行業內產業鏈企業的發展
電信大數據的工作任務是提升數據的應用價值,通過打造大數據平臺,吸引行業內的各類企業共同開發利用,并與各自的數據資源進行融合。業務定位是提供大數據基礎能力支撐,與產業鏈各方一起促進大數據產業發展,共同成長。
(5)營造健康發展環境,建設大數據應用生態
中國電信致力于建設開放、合作的大數據應用生態。與產業鏈各方共同營造安全、合規的數據使用環境,有助于未來電信數據能夠更好地對外服務。如圖2所示,在面向最終客戶提供大數據應用服務時,產業鏈各方充分發揮各自在數據、產品建模、平臺技術、解決方案提供方面的作用,實現優勢互補,合作共贏。
圖 2 ? 共建大數據應用生態
?
4? ?電信大數據產品和應用
4.1? 天翼大數據“4+1”產品體系
中國電信天翼大數據現有“4+1”的產 品體系,包括兩大類型:數據型產品和平臺 型產品。
?(1)數據型產品
數據型產品主要依托中國電信的數據資源,同時整合外部數據資源(如金融、電商等行業),開展分析、挖掘類數據業務,服務形態主要包括:標簽、報告以及SaaS應用。其中,“星圖”系列以用戶畫像和分析為主,分別是風險防控及精準營銷2類產品;“鯤鵬”系列以區域分析、群體趨勢分析、群體畫像為主,分別是咨詢報告及區域洞察2類產品。
做數據型產品的目的是更好地從非運營商業務的視角來理解數據,了解數據如何更好地為行業服務,如何有效地與產業鏈合作伙伴協同。
(2)平臺型產品
平臺型產品為合作而生。“飛龍”系列大數據云PaaS提供資源托管、數據處理分析、產品孵化3類服務。
大數據離不開云計算基礎設施,依托中國電信“8+2+X”的云資源布局,通過構建云計算PaaS平臺產品,提供比基礎設施層更高、更豐富的平臺服務,降低用戶使用大數據挖掘門檻,使得開展大數據業務的企業無需擔憂技術實現問題,而是將更多的精力和資源投入對需求的挖掘、分析和滿足上;讓傳統企業能更快、更高效地通過分布式計算框架、完善的數據分析工具組件,實現大數據時代的IT升級換代、同時,通過PaaS平臺能力開放以及平臺敏捷可靠的開發環境,越來越多的應用開發者、越來越豐富的數據能力為整個產業鏈提供了有力的生態保證。
4.2? 電信大數據產品應用
(1)終端咨詢報告
利用中國電信擁有的完整終端自注冊信息以及終端用戶數據,判斷用戶終端的使用狀態、使用行為特征、消費能力以及偏好等數據,通過數據整合與能力封裝,提供終端分布、終端使用行為分析等分析報告服務。
針對終端廠商,提供查詢自有品牌終端及競爭伙伴終端的相關數據及趨勢分析,分析本產品和競爭產品的市場份額、終端網齡、終端生命周期、換機流向,助力終端設計生產。針對終端銷售渠道,提供銷售終端份額、終端規模增速、價格構成、價值貢獻等信息查詢和分析功能,提升銷售渠道快速掌握銷售市場動向、調整銷售策略的能力。針對應用開發商,提供應用滲透率、應用的終端市場占比、應用的使用周期等信息的實時查詢,幫助開發商更快、更準確地了解應用市場動向。
(2)精準營銷產品
基于運營商多維數據的交織分析,通過關聯挖掘海量電信數據和互聯網數據,對用戶進行標簽化處理;與傳統互聯網標識不同,電信標識體系能更精準識別自然人,通過結合興趣標簽和用戶屬性標簽,更好地服務行業客戶;并通過“用戶行為—興趣—產品”的關聯標簽,結合電信各種新式媒體和觸點,將企業營銷信息推送到比較準確的受眾群體中,為企業節省營銷成本,為用戶找到合適的需求點,達到ROI(投資回報率)最大化的效果。
(3)區域洞察商業選址
在中國電信的海量數據中,還有一類最有價值的數據就是海量用戶的位移數據。依托中國電信移動網絡的蜂窩模型及用戶的位移,鯤鵬—商業選址產品提供了更有效的數據分析能力,通過海量的用戶樣本更精準地實現對區域商業價值的評估,改變了傳統依托“公開數據+掃街調查”,通過少量樣本進行商業選址的傳統區域價值評估模式。
依托中國電信大數據,通過用戶的區域通信行為,結合POI信息,提供區域常住人口特征分析、車流人流分析、各類商業業態分布和區域競爭信息,讓商業選址更智能,真正從行業的視角,以數據的方法幫助客戶以最優的性價比選擇線下商鋪的地址,支撐商鋪的運營。
(4)人口流動分析
隨著人們生活水平的改善,越來越多的人在節假日選擇出行、旅游。公安、旅游等部門都面臨如何有效地在人群聚集的狀態進行及時的安全監控預警和高效地進行區域人員的分析和預測,避免公共場所群體安全事件發生的問題。
中國電信多樣化的數據、政府相關部門的數據、合作伙伴的數據等多源數據,實現了以移動用戶的實時數據為基礎,有效地對區域人流進行信息化監控預警、分析及服務,讓政府的管理機構可以以科學的技術手段實現對關注區域的人流密集程度、流動方向、人流群體的結構、人流特征等多個維度信息的及時掌控。通過實時/準實時的數據匯聚、清洗、分析,各類人流熱圖的呈現,開發了多種可視化手段。
人口流動類宏觀產品已經在流動人口分析、疾病防控、京津冀一體化規劃等進行了有益的嘗試。在2015年廣西東盟博覽會上,中國電信與合作伙伴一起為大會主辦方提供了包括互聯網專線、IPTV、Wi-Fi及大數據安全預警在內的會展解決方案。通過對手機用戶數據、信令位置數據和現場視頻數據的關聯,運用大數據建模和可視化組件,為展會提供了實時人流監控和人群結構分析服務,做到了及時、準確、可靠的安全預警,有效降低了安保成本和風險。
4.3? 電信大數據應用推廣
(1)不斷深化產業鏈合作
中國電信始終秉承“合作共贏”的經營理念,在大數據領域不斷加強與產業鏈的開放合作。經過一年多的開發以及與大量廠商的合作開發,電信大數據產品一系列產品已經能夠滿足海量業務的調用,能夠提供高性能的平臺運算能力。
2015年11月中國電信正式發布了“天翼大數據”品牌,推出精準營銷、風險防控、區域洞察、咨詢報告4類數據型產品和大數據云平臺型產品,重點服務于旅游、金融、廣告、交通、政府等行業和部門。其中,風險防控產品基于中國電信用戶標簽數據建立用戶信用模型,主要服務于銀行、保險、征信、P2P等金融機構;區域洞察產品基于中國電信用戶位置標簽數據,為道路交通、區域人流分析、商業選址分析、智慧城市建設、智慧旅游建設等領域提供數據服務。
在發布會現場,中國電信與浪潮集團、全聯房地產商會、東方國信科技股份有限公司、中誠信征信有限公司、中智誠征信有限公司、華為技術有限公司、中興通訊股份有限公司、神州泰岳軟件股份有限公司等10余家合作伙伴簽署了戰略合作協議。中國電信將與戰略合作伙伴在大數據產品和解決方案等領域持續開展深度合作。
(2)積極推動中國企業大數據聯盟(BDU)發展
通過建立數據標準、交換規則,推動跨界合作,創新商業模式,提升參與各方大數據應用的整體水平,提升產業競爭力;匯聚各方力量,吸收國內外先進經驗,使聯盟成為推動技術進步、應用創新的中堅力量,為大數據產業健康發展做出貢獻。
(3)推出大數據成長計劃
該計劃旨在構建有影響力的大數據生態圈,以中國電信大數據開放平臺、高價值數據為支撐,面向行業伙伴提供數據、產品、銷售3種合作模式,快速形成聚合效應,促進中國大數據產業健康發展,拉動信息消費,為推動社會轉型升級做出貢獻。立足于現有平臺和未來發展,聯合各類企業、科研單位、高校單位等,共同成長。同時中國電信主辦了大數據分析競賽,推動大數據分析在未來人群中的認知、發展和人才儲備等。
?
5? 大數據分析案例——電信大數據 在政府流動人口分析中的應用
業務需求:分析某省份省會城市轄區中流動人口的比例、構成以及人群的特點,推演出其在醫療衛生方面的需求,為政府和組織的服務提供參考。
將需求分為兩個部分,第一部分為如何盡可能準確地描述流動人口,盡可能多地將真實的流動人口提取出來,提高準確率;第二部分為對確認的流動人口進行人口學特征、網絡使用偏好、居住信息、活動區域、家庭情況、工作情況方面的分析,支撐政府醫療衛生服務方面的措施推進。
(1)明確流動人口的定義
根據項目的需求,將從省內非省會城市遷徙而來、時間高于1個月的用戶設定為研究對象,其中將居住時間超過3個月(可調)的用戶定義為流動人口。分別從時間、位置方面初步區分流動人口群體。
(2)人群初步區分
分析前提:所有“在用”狀態的用戶,將設定幾個用于區分人群的標準,見表1,綜合如下。
表 1?? 根據人和手機號的歸屬地劃分人群
由于不知道戶籍方面的信息,單純從電信數據看,A部分是最有可能產生流動人口的群體;其次為B部分,即流動人口在居住地換本地號碼的情況;第C部分需要根據戶籍信息是否變動、居住時間等條件判斷,根據輔助條件,少量歸入流動人口的群體;第D部分為當地居民的可能性更高,認為非流動人口群體。
然而以上分類較粗,錯誤率會較高,因此加入了其他的輔助篩選條件,如進入本市時長、是否有省內漫游、是否有省內長途電話。
根據就近和信息有效的原則,從開始研究的月份之前倒推6個月開始積累數據,對每月居住時長達到某一閾值的用戶,折算為居住一個月。
有省內漫游和省內長途通話的用戶將比無省內漫游和省內長途通話的用戶為流動人口的可能性更高。
通過以上條件篩選,最終篩選出可能性最大的流動人口的人群,總計約10萬人。根據電信用戶的比例計算,符合需求的流動人口總量應為70萬~80萬人。
(3)通過模型進一步擴大流動人口篩選的范圍
根據與需求方的深度溝通,在以上篩選方法的基礎上,將流動人口與非流動人口進行對比測試,從相關數百個字段中挑選出了30多個最相關變量和衍生變量,將相關變量分為核心變量、輔助變量,并對核心變量進行權重劃分。
經過各類模型分析結果對比,選擇了人工神經網絡作為最終的模型。初步的結果顯示,基本上能夠將目前數據樣本中絕大部分疑似流動人口的用戶識別出來,并應用于具體的數據分析工作。
(4)部分分析結果舉例
通過每月數據的監測,對每月流動人口的變動進行描述,得到了一段時間內人口流動的波動信息和人口的基本信息,如圖3、圖4所示。
圖 3 ? 流動人口月數量分布
圖 4 ? 流動人口年齡占比情況比較
通過可視化方法,在地圖上顯示出流動人口的分布、每日流向等信息,還能以動態的方式展示。結合POI等信息,還可以分析出流動人口生活環境狀況等。
利用組合模型,可以分析出特定人群的分布、人群特征、活動特征等信息,例如通過對用戶網絡行為和位置行為建模分析,能夠區分出育齡婦女人群以及她們大體所處的孕育階段,能夠更加精準地為政府決策、公共衛生服務提供參考。
?
6? 結束語
大數據開發的最終目標是行業應用,它依托于大量的數據、強大的分析資源、各類優秀的業務模型以及對垂直領域的洞察。中國電信作為運營商級別的大數據開發者,能夠在數據、平臺、合作等方面為全社會提供基礎資源,促進各行業大數據的開發、融合、應用。
中國電信已經開發了“4+1”的產品體系,并將開發更多的大數據產品、更多的接口,與更多的企業合作。大數據的深度利用,將成為社會經濟發展的重要推動力。
?
參考文獻:
[1]? 童曉渝, 張云勇, 房秉毅, 等. 大數據時 代電信運營商的機遇[J]. 信息通信技術, 2013(1):5-9.
T ONG X Y, ZHANG Y Y, FANG B Y, et al.? Opportunities for Telecom operators in the big data age[J]. Information and Communications Technology, 2013(1):5-9.
[2]? 黃勇軍, 馮明, 丁圣勇, 等. 電信運營商大數 據發展策略探討[J]. 電信科學, 2013, 29(3): 6-11.
?HUANG Y J, FENG M, DING S Y, et al. Big data development strategy for telecom operators[J]. Telecommunications Science, 2013, 29(3): 6-11.
[3]? HORNIK K, STINCHCOMBE M, WHITE H. Multilayer feed forward networks are universal approximators[J]. Neural networks, 1989, 2(5): 359-366.
張宇中(1969-),男,中國電信股份有限公司云計算分公司首席數據分析師、大數據分析顧問,主要研究方向為消費者研究、互聯網網民行為分析和數據挖掘、新媒體傳播及媒介價值研究、網絡營銷效果評估優化、汽車數字營銷。
李名洋(1983-),男,中國電信股份有限公司云計算分公司數據分析師,主要負責大數據分析、模型搭建應用、行業大數據研究等工作。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的【2016年第3期】中国电信大数据应用实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UDP协议抓包分析 -- wiresha
- 下一篇: TCP协议抓包分析 -- wiresha