《善数者成:大数据改变中国》读书笔记1
內容提要
數據之大,“大容量”只是表象,“大價值”才是根本。
數據自古有之,它是對萬事萬物的精確刻畫,也是對客觀世界的普遍記錄。
推薦序
通俗地說,數據是數字化的資料,而大數據,就是大而復雜的資料集。
當數據積累到一定的量級,數據背后關于自然和社會的客觀規律也開始呈現出來,人類通過挖掘、分析,可以從龐大的資料集中判斷事物的特點、趨勢和相互關系,從而讓數據釋放出科學的偉力。
挖掘各領域數據的價值,從而實現由數據到信息再到知識和決策的轉換,將是一個基本的社會科學活動。
發展大數據具有獨特的優勢,一方面,這和我國數據資源豐富、市場規模巨大、互聯網普及程度高有關;另一方面,我國能夠集中力量辦大事,也保障了數據歸集、標準統一等大數據基礎性問題的解決。
大數據時代出現的公共問題尤其值得我們關注,比如數據鴻溝、數據安全、數據主權、數據如何跨境流動,以及隱私保護等。
前言
社交媒體、移動互聯網和物聯網的發展,讓人類經歷了空前的數據爆炸;而數據處理和分析技術的進步,更讓人類使用海量數據的能力得到了極大的提高。借此,人類可以更好地發現知識、提升能力、創造價值,政治、經濟、學術等各大領域都出現了新的發展機遇。
我國在大數據領域具有市場規模和數據資源優勢。
第一章 大數據的前世今生
在互聯網經濟時代,數據是新的生產要素,是基礎性資源和戰略性資源,也是重要生產力。
1.1 正解大數據:世上本沒有數
數據的來源分為測量、記錄和計算。一切科學的本質都是測量。
傳統意義上的數據,和信息、知識也是完全不同的概念:數據是信息的載體,信息是有背景的數據,而知識是經過人類的歸納和整理,最終呈現規律的信息。
20世紀80年代,美國就有人提出了“大數據”的概念。那時候的“大”,如“大人物”和“大轉折”之“大”,主要指價值上的重要性。這個時候的“大”,含義也更加豐富了:一是指容量大,二是指價值大。而且大容量并不一定代表大價值。大數據的真正意義還在于大價值,價值主要通過數據的整合、分析和開放而獲得。從這個方面來看,大數據的真正意義是,人類擁有了前所未有的能力來使用海量的數據,在其中發現新知識、創造新價值,從而為社會帶來“大知識”“大科技”“大效益”和“大智能”等發展機遇。
1.2 存儲革命:摩爾定律推動的進化
普適計算理論認為,計算機發明以后,將經歷三個主要階段:第一階段是主機型階段,指的是很多人共享一臺大型機,一臺機器就占據半個房間;第二階段是個人計算機階段,計算機變小,人手一機,韋澤當時就處于這個時代,這似乎已經是很理想的狀態,但韋澤天才般地預見到,人手一機不是時代的終結;在第三個階段,計算機將變得很小,小得將從人們的視線中消失,人們可以在日常環境中廣泛部署各種各樣微小的計算設備,在任何時間、地點都能獲取并處理數據,計算設備最終將和環境融為一體,這個階段被稱為普適計算階段。
普適計算的本質,是在人類生活的物理環境中廣泛部署微小的計算設備,實現無處不在的數據自動采集,這意味著人類收集數據能力的增強。在此之前,電子化的數據主要由各種信息系統產生,這些信息系統記錄的主要是商業過程中產生的數據。而傳感器的出現及其技術的成熟,使人類開始有能力大規模記錄物理世界的狀態,這種進步推動了大數據時代的到來。
1.3 社交媒體:每個人都是數據的生產者和協作者
人類數據的真正爆炸發生在社交媒體時代。
互聯網的主要作用是信息的傳播和分享,其最主要的組織形式是網站,但網站是靜態的。進入Web2.0時代之后,互聯網開始成為人們實時互動、交流協同的載體。
社交媒體的另外一層重要意義就是,給全世界無數的網民提供了平臺,使其隨時隨地都可以記錄自己的行為、想法,這種記錄其實就是貢獻數據。
所有的數據都是人為產生的,所有的數據都是對世界的測量、記錄和計算。
除了數據總量驟然增加,社交媒體還使人類的數據世界更為復雜。在大家發的微博中,你的帶圖片,他的帶視頻,大小、結構完全不一樣。因為沒有嚴整的結構,在社交媒體上產生的數據也被稱為非結構化數據。
現在進入大數據時代,最根本的原因是人類使用數據的能力取得了重大突破和進步。
1.4 數據挖掘如何點“數”成金
數據使用能力的突破集中表現在數據挖掘上。
數據挖掘的進步,根本原因是人類能夠不斷設計出更強大的模式識別算法。
傳統菜市場最大的痛點就是信息不對稱,進貨的商戶找不準市場真實需求而導致商品積存或出現質量問題。
當下興起的機器學習憑借的也是計算機算法,但和數據挖掘相比,其算法并不是固定的,而是帶有自調適參數的,也就是說,它能夠隨著計算、挖掘次數的增多,不斷自動調整自己算法的參數,使挖掘和預測的結果更為準確,即通過給機器提供大量的數據,讓機器可以像人一樣通過學習逐步自我改善提高,這也是該技術被命名為“機器學習”的原因。
除了數據挖掘和機器學習,數據的分析、使用技術已經非常成熟,并且形成了一個體系。數據倉庫、聯機分析處理(OLAP)、數據可視化、內存分析都是該體系的重要組成部分,在人類數據技術的進步過程中,都扮演過重要的角色。
第二章 數字治理:用大數據提升政府管理與公共服務水平
要建立健全大數據輔助科學決策和社會治理的機制,推進政府管理和社會治理模式創新,實現政府決策科學化、社會治理精準化、公共服務高效化。
“最多跑一次”改革的本質,不是簡單地把多個政府部門的窗口在實體意義上集中到一起,而是一次政府部門的自我革命。其中,組織架構變革與行政流程再造是基本保障,打破數據孤島、完善數據治理是關鍵環節。
2.1 從“告別奇葩證明”到“告別證明”
“奇葩證明”背后的原因是我國一些政府部門掌握的數據還沒有實現跨地區、跨部門共享。數據不跑腿,就只能群眾和企業多跑腿。
提出計劃打造“一個庫”,將聯合建設長三角數據中心,把數據格式、口徑、目錄、接口等都統一起來,讓數據資源更管用。一方面,要抓緊推動基礎數據庫的建設,把各自的政務數據、行業數據、社會數據統一按標準進庫;另一方面,依托統一的數據共享平臺,實現跨部門、跨省市共享應用
大數據時代的政府組織架構變革與行政流程再造,最終目標和理想狀態是建立一個整體性的政府。在整體性政府中,各地區各部門的行政目標和手段不僅相互一致,而且還能相互增強。
2.2 “12345”數據讓城市更美好
更進一步地,政務熱線的數據不僅可以在政府內部使用,還可以在脫敏后向社會開放,讓各種社會主體一起來挖掘數據價值。
大數據和人工智能時代的政務熱線已不僅僅是傳統的熱線呼叫中心,更成為城市數據中心和智能化服務平臺——通過熱線大數據的挖掘來有效識別公共需求及城市問題,從而支撐政府決策和城市治理走向科學化和精準化。
2.3 大數據辨識真假“鬼城”
吳海山的團隊通過分析智能手機定位數據,首次對我國的“鬼城”進行了量化研究,監測到20個城市住宅空置率比較高的區域,并將因旅游度假的季節性因素造成的住宅空置和真正的“鬼城”進行了區分。
著名人工智能科學家吳恩達(Andrew Ng)對此評論道:“是時候讓機器學習來實現數據驅動城市規劃了。”
大數據讓政府決策從經驗驅動轉向數據驅動。
開展數據關聯分析和應用的前提是跨部門數據共享和數據治理。
國務院大力推動政務信息系統整合共享取得了積極成效,“各自為政、條塊分割、煙囪林立、信息孤島”的問題得到了明顯改善。
要真正實現政府數據整合共享,還需超越“為共享而共享”的思路,站在數據治理的高度來審視、規劃和推動數據共享工作。第一,要推進數據治理法律法規建設,營造“依法治數”的良好環境。第二,要健全數據治理組織架構,完善數據治理管理機制。第三,強化數據資源管理體系,全面提升數據治理能力,這涉及數據質量、數據安全、數據標準、數據架構、元數據管理和數據全生命周期管理等內容。第四,加快數據共享開放步伐,建設數據利用生態體系,吸引社會各方基于城市的實際需求和應用場景對開放數據進行融合利用,創造社會經濟價值,并形成正向反饋,進一步推動政府數據治理和數據共享開放,構建起一個動態循環的開放數據生態系統
2.4 “數據鐵籠”讓權力不再“任性”
貴州省打造了“數據鐵籠”,省紀委監委引入公職人員的個人信息、工商數據、死亡數據、房產信息、車輛信息、大病醫療異常分析等10個比對模型,并打通與民政、人社、住建、衛計、移民等主管部門的數據共享壁壘。
大數據為完善政府自身管理提供了新的手段。在大數據、云計算和移動互聯網等技術的輔助之下,實現權力運行全程規范化、數字化,處處留痕跡。
變人力監督為數據監督、變事后監督為過程監督、變個體監督為整體監督,大大壓縮了權力尋租空間。
值得注意的是,數據在政府自身管理中的運用并不能孤立存在,只有把它與制度、組織、文化等方面的變革結合起來,才能真正發揮潛力。只有在制定好權力清單、責任清單、負面清單的基礎上,才能將權力運行流程和環節細化、固化和數據化。只有針對權力運行的流程建立起完善的風險評估機制,才能在技術的輔助下及時預警和發現行政不作為、亂作為等行為。技術再先進,最終還是要靠人來執行。
2.5 “Gov Store”:開放數據,建立生態
數據是國家的戰略性資源,國家大量基礎性、關鍵性的數據掌握在政府手中。這些數據是社會的公共資源。
政府數據開放的根本目的在于推動數據利用。
通過開放數據,政府部門不必再自己提供全部的公共服務,而是可以通過與數據利用者的合作來提供公共服務,在解決問題和創造價值的同時還節約了費用。
同理,政府部門通過開放數據,也可以建立起一個政府應用的生態系統“GovStore”,讓企業、社會組織和公民個人等各種社會主體在平臺上利用政府開放數據來進行創新應用。
政府數據開放是公共服務合作眾創的基礎。但是數據并不能為了開放而開放,而是要為了進一步推動“治理”回歸本源。
2.6 數據跑不到的地方,用溫情來彌補
我們也要避免“為了創新而創新”,只去追求表面上的新鮮炫麗;避免“言必稱數據”導致下屬忙于統計數據,卻忽略了提升工作實效;避免只忙于囤積數據,卻疏于數據治理,導致過時、錯誤的數據得不到有效治理;避免只重視數據中心的建設,卻忽視大數據實際應用的落地。
大數據能夠助力公共服務的便捷化、精準化和個性化已成為共識,這一轉變固然離不開數據的支持,但更重要的是從供給導向到需求導向、從管理導向到服務導向的意識轉變,防止“數據迷信”和“技術迷信”。畢竟,再先進的技術也改變不了不合理的工作流程和落后的服務理念。
在暫時無法依靠數據“跑腿”的情況下,把“群眾跑腿”變成“干部跑腿”,體現了政府為民服務的意識。
而且,數據也不是萬能的,不是所有證明都可以借助數據共享取消的。
2017年,東南大學研究生創新團隊針對留守兒童問題研發的數據可視化平臺,在一場大數據競賽中獲得最佳設計獎。該平臺用數據可視化的方式展現各地區留守兒童的健康、教育、安全等情況,并且能夠針對各村留守兒童管理狀況進行綜合評判和打分。該平臺還能計算出設置留守兒童關愛站的最佳地理位置,方便政府部門更精準高效地服務留守兒童。
大數據時代的政府管理和公共服務,是用戶導向的價值追求和效率提升的效用追求的融合,數據的力量為治理的每一個環節賦能,在制度、組織、文化等各方面全面提升的配合下,對內整合再造,對外連通開放,將更好地造福社會、造福人民。
第三章 變革時空:數據再造出行與物流
預測給我們知識,而知識賦予我們智慧和洞見。
3.1 城市“數腦”:改善交通擁堵的新方案
杭州“城市數據大腦”打響的第一戰就將劍鋒直指城市擁堵問題。
杭州正式發布了數據大腦交通系統V1.0,它具有智能路況感知、智能堵”情判定、智能事件巡查、智能配時優化和智能輔助等功能。城市數據大腦交通系統V1.0通過遍布主要交通路口的智能攝像頭來實時采集流量、車速等交通數據,并利用這些數據構建虛擬化的杭州城模型,分析關聯道路的實時車流量情況,提前預判可能的交通情況,以秒級速度分析設計出路口信號燈時長的最優方案,更智能化地調節交通燈的設置與時長。
3.2 智慧物流:實現更貼心的最后一千米
在舉世矚目的電子商務背后,是物流在為其提供支撐,電子商務的躍進伴隨著物流業的不斷發展。
中國的電商物流是如何實現數量與質量雙躍進的呢?其秘訣在于融合大數據、物聯網等創新技術與思維的智慧物流。
大數據、物聯網和互聯網等被普遍認為是智慧物流的核心技術。通過對商流、物流等數據進行挖掘和分析,大數據可以更精準、清晰地反映物流及市場的現狀并預測未來變化,幫助企業更好地預測用戶需求并形成派送路線、優化倉儲網絡和設備維修等方面的決策。
IBM最早提出了“智慧物流系統”(Intelligent Logistics System)的概念,認為智慧物流以具有先進、互聯和智能三大特征的“智慧供應鏈”為基礎,重視整合物聯網、傳感網與現有的互聯網,通過精細、動態并且科學的管理,實現物流的自動化、可視化、可控化、智能化和網絡化,從而提高資源利用率和生產力水平,創造更豐富的社會價值。
在倉儲包裝環節,菜鳥網絡公司運用大數據技術智能調度商品存儲。結合相關的商品、物流數據,菜鳥自動化倉庫可以預測商品的暢銷程度,進而對其倉庫和貨架進行智能調度,最大限度減少商品物流節點,縮短商品傳送路徑,提升倉儲和物流效率
菜鳥網絡還結合大數據和人工智能技術,實現了智能包裝。傳統的訂單商品包裝一般根據人的經驗來選擇,效率低且很可能會浪費大紙箱,而借助大數據和人工智能技術,菜鳥倉庫在商品入庫之前就知道其尺寸和特性,可以自動為訂單分配最適合的紙箱和擺放方式。
在分單和路線規劃上,菜鳥網絡基于海量大數據系統和阿里云系統,以菜鳥電子面單為載體,推出了大數據智能分單項目,用大數據分單來替代人工分單。
在“最后一千米”的配送上,大數據也給菜鳥網絡提供了更多可能。菜鳥網絡的物流數據平臺匯集商家、物流公司、氣象數據和交通實況數據等數據資源,深度挖掘阿里平臺上海量的商品、交易、用戶信息和社會物流網絡信息,實現了物流過程的數字化、可視化,能夠對全國各大物流公司進行整
個包裹流轉鏈路的運輸預測和預警,讓物流公司可以實時掌握物流網絡每個環節的“未來包裹量預測”和“繁忙度實況預警”;同時也讓商家能夠了解物流公司的狀況,選擇合適的物流公司進行商品配送,實現智選物流的目標,讓商品能夠更快更安全地送到顧客手中。
3.3 數據開路:來一場說走就走的旅行
旅游市場流通領域的核心活動者是旅客而非商品,而旅客的流動通常由有關旅游商品的信息傳遞所引發。從這一意義上講,信息是旅游業的核心內容。
馬蜂窩正是中國UGC大數據最成功的應用者之一。馬蜂窩用大數據發現用戶、形成決策。用戶旅行決策前,會在馬蜂窩產生長期的內容瀏覽行為,比如瀏覽關于旅游目的地的相關游記和路線推薦、查詢其他游客的點評等。通過挖掘相關數據,馬蜂窩可以實現對整體客群的全景畫像,為用戶精準匹配。
后端的優質旅游產品,實現千人千面、所見即所需。同時,根據海量用戶的需求趨勢,可以根據大數據分析結果,優化旅游商品的供給,引導對應的供應商增加供應,并按不同用戶類型提升自家的商品呈現力和銷售服務力。而且在實現售賣之后,馬蜂窩平臺上就又會產生大量的用戶購買和評價UGC數據,比如新的游記和評論,反推商品優化和內容引導。
大數據還為馬蜂窩拓展旅游商業合作提供了可能,創造了旅游供應商之間的共贏。早在2014年,馬蜂窩就與航空服務商“在路上”旅業合作推出了反向定制產品,這些產品根據用戶偏好數據定制及預售,不僅符合旅行者需求,而且具有較高性價比,產品在推出的5分鐘內被搶購一空。此外,海南航空、美國馬薩諸塞州旅游局也與馬蜂窩合作開發了系列反向定制旅游產品。這種預售+反向定制的C2B模式基于龐大的用戶數據,預判消費者的喜好或消費傾向,定制相應的旅游產品,滿足個性化出行需求。通過大數據分析用戶行為或聚合社交力量,這種模式可以撬動和重構上游的旅游資源。
景區管理及景區相關產業的信息系統、視頻監控系統、感知系統等所有數字景區系統每時每刻都會產生大量的數字、文本和視頻數據;景區外部的社交網絡等互聯網平臺也會產生大量與景區有關的數據。此外,景區獨特的自然地理特征、歷史文化特點等,也可以轉化為空間地理數據和歷史人文數
據。這些海量數據為景區的智慧化提供了數據資源,大數據技術則助力智慧化落實。
2018年重慶推出“重慶旅游云”,依托大數據、人工智能、云計算、物聯網等智能化技術,對旅游目的地資源、服務等數據進行整合,以提升景區管理水平,助力景區精準營銷和產品升級,并為游客提供行程規劃和信息查詢。
大數據可以更精確地告訴景區管理者景區內哪些景點更受歡迎、游客都來自哪里、游客有哪些需求、什么時間是景區的人潮高峰,等等,幫助景區管理人員更好地實現更科學和精細化的管理。
3.4 數據止痛:改變時間與空間的交錯
錯位的時空與滯后的信息,無處不在的痛點。
在交通、物流和旅游領域,實體與數據跨地理空間的流動速度是影響效率與效益的重要因素,也是目前限制其進一步發展的主要瓶頸。
在物流業,大量資源和數據分散于物流的各個環節中,但是物流各環節的主體間仍然存在著如孤島般隔離的現象,供給與需求的信息無法完全對接,倉儲和運送的速度難以有效提升。數據是旅游的核心要素,旅客流動、景點管理、旅游設施規劃與服務提供等,都離不開數據。但是由于數據的不完備與流動的不暢通,旅游資源存在著極大的配置不均衡與浪費,游客的旅行體驗也有待提升。
公共部門的交通管理數據、交通運輸數據、交通規劃數據、氣象數據,企業的鐵路、民航運輸數據和保險數據,交通流量、道路監測等物聯網數據,以及導航數據、位置數據等運營數據,等等,都是交通大數據的組成部分。
分散的數據再龐大,不進行整合則不能利用,不能利用則無法產生價值。
在交通、物流和旅游領域,大量數據為視頻、圖片等非結構化數據,而且數據是實時產生、實時變化的。在傳統的小數據模式中,由于數據來源于樣本而非總體,來自于靜態的截面而非動態的全過程,人們更加注重數據與分析的準確性,關注因果關系;而大數據覆蓋總體范圍,產生于運行的全過程,更關注事物之間的相關關系,能夠更快速地分析處理問題。
3.5 數據監管:立法規范進行時
海量的數據并不意味著準確的數據。虛假的數據將導致扭曲的大數據現實畫像。
大數據如同其他技術一樣,它的價值并不在于技術本身,而在于技術的具體應用。
采集數據時用戶的知情權和同意權、數據被采集后的利用規范、用戶要求刪除個人信息的被遺忘權等權利都有受到侵害的風險。
原因在于這些互聯網企業具有更多的技術和數據優勢,在信息掌控上與消費者之間存在著不平等關系。
總結
以上是生活随笔為你收集整理的《善数者成:大数据改变中国》读书笔记1的全部內容,希望文章能夠幫你解決所遇到的問題。