《善数者成:大数据改变中国》读书笔记2
第四章 教育升“溫”:用數據精準滴灌
4.1 教學科研:被大數據換上新顏
教育大數據有兩大重要來源:一是在教學活動過程中直接產生的數據,比如學生的學習行為數據;二是在科學研究活動中采集到的數據,比如研究數據。
“私人訂制”的內在驅動力在于個體之間的差異,而不同的個體對于服務有個性化的需求。在大數據時代,個體的需求已不再是一個黑箱,大數據使“私人訂制”成為可能。
**“自適應學習”是指人與系統相互學習的非線性過程。**傳統教育模式無法兼顧不同學生在學習能力、知識掌握程度和對教學風格的偏好等方面的個性化需求,只能采用“題海戰術”來彌補知識漏洞。這對學生的學習效率和效果造成了嚴重影響。自適應學習則打破了這種局面,它能夠基于對學生學習情況的精準診斷,為其提供個性化的學習方案。
松鼠AI可以通過對知識點的深度拆分,清晰精準地發現學生的知識漏洞和薄弱之處;同時還可以通過對學生的知識狀態和能力水平進行持續性的實時多維數據評測,建立學生畫像,有針對性地提供個性化學習解決方案,并且隨著學生能力水平的變化動態調整,提升學習效率。
需要強調的是,自適應學習雖然在知識學習方面已遠遠超過老師,然而老師在知識講解方面仍發揮著重要作用,老師與學生之間的情感交流也不是技術能替代的。
4.2 教育管理:因大數據而行穩致遠
教育管理過程中也會產生大量數據,主要有兩類:一是在學校管理活動中采集到的數據,比如學生數據、教職工數據和學校設備資產數據等;二是在校園生活中產生的數據,比如餐飲、網絡和洗浴等記錄數據。
通過對教師人數變化、排課進度、授課回顧圖文的數量和質量、教師成長晉升經歷、參與培訓次數、參與夢想沙龍次數等多維度數據的分析來了解所在片區學校的情況,然后結合電話溝通和線下走訪,實現更精準的運營。
東華大學將大數據技術應用于實驗室管理系統中,有效解決了實驗室管理效率低下的問題。實驗室的使用情況數據,包括儀器的電流電壓都實現了數據化。
電子科技大學的周濤教授曾做過一個叫作“尋找校園中最孤獨的人”的課題。該課題從約3萬名在校生中采集到了2億多條行為數據,這些數據包括學生選課、圖書館刷卡、寢室門禁、食堂消費以及學校超市購物等數據,都是學生刷一卡通產生的。
在一次講座中,周濤解釋了大數據思維的三個精髓:第一是數據的外部性,即通過看似沒有關系的數據去透視問題,利用一卡通消費數據來預測學習成績和觀察學生作息是否異常就是一個典型的例子;第二是數據的群集性,僅僅分析一張卡的消費數據并不能起到多大作用,需要將這張卡的數據與其他卡的數據聯合起來分析才有可能發現問題;第三個是需要數據科學家去分析這些業已存在的數據。
4.3 教育與大數據:緣何走到一起
傳統的教育模式是工業化時代的產物,教育內容與方式更像是標準化的“流水線”。而在大數據時代,學習者需要的是更為個性化、更有針對性的學習方式。
如果說大數據是教育創新所需要的“米”,那么這些“米”的來源就是教育信息化。有了“米”,數據的采集、存儲和分析技術就是做飯的“鍋”。
鍋已到位,有些“米”早就存在了,為什么沒有被做成飯呢?因為還缺少“巧婦”,也就是各類大數據應用人才。
大數據技術固然重要,但更為關鍵的是挖掘出需要解決的問題,將技術手段與問題導向結合起來,將數據和應用場景連接起來,這就需要有多種學科背景的專業人士來合作完成。
有了“米”“鍋”和“巧婦”,才能做出好“飯”,三者缺一不可。
4.4 路在何方:人的全面發展與數據的底線
大數據技術在教育領域的深入應用離不開技術的不斷進步。大數據技術在教育領域的應用主要面臨三方面的技術挑戰:第一,海量教育數據帶給數據存儲技術、數據處理技術和數據分析技術的挑戰,這里技術也包括計算機硬件的數據處理能力、超級計算機算法技術等;第二,數據采集技術和問題分析技術的挑戰,這是教育大數據應用的核心環節;第三,數據兼容性的挑戰,主要是指不同數據存儲系統中不統一的數據編碼和數據格式,這會造成不同系統間的數據共享困難。
教育領域是一個龐大的生態系統,涉及各種各樣的利益相關方,包括政府、學校、相關企業、社會組織、學生和教師等,但最終都落實到一個個活生生的人,而這每一個人的數據素養決定著整個教育領域乃至整個社會對于大數據的接納和應用能力。
不能僅限于學習一些技術工具,更要培養綜合運用大數據解決問題、創造價值的觀念、素質和能力。
在大數據時代,似乎一切都可以被數據化。然而,大數據的發展也存在兩面性,它雖然能給人帶來便利,但是也可能產生風險。
第五章 顛覆醫療:大數據助力健康中國
大數據在醫療上的應用已經涵蓋電子醫療記錄收集、可穿戴設備實時健康狀況預警、基因測序實施精準醫療和按需調配醫療資源等方面。
5.1 “智慧養老”:讓關懷永不缺席
看護系統主要包括:床墊傳感器、馬桶傳感器、煤氣泄漏報警器和室內紅外線傳感器等。
這些系統能夠實現一些監測功能,如監測水龍頭幾天沒被使用了,燈一直沒有打開,燃氣一直在使用(燃氣沒關)等。如果這些信號被監測到了,那么這些系統就會提醒這家人的親人。
讓百姓少跑腿、數據多跑路,不斷提升公共服務均等化、普惠化、便捷化水平。要堅持問題導向,抓住民生領域的突出矛盾和問題。
5.3 “互聯網+醫療”:醫患和諧的“公約數”
北京大學深圳醫院引入了包括輸液感應器、PDA傳輸系統和病房傳輸系統的全閉環智能輸液管理系統。護士會在輸液前通過PDA對患者腕帶進行掃碼確認身份,同時將患者的生命體征測量數據轉入計算機端以及護理記錄中,患者即可進行輸液。如果身份信息不相符合,PDA會用警報的方式制止輸液。該全閉環智能輸液管理系統能夠實時監測患者輸液剩余量和滴速,并將其數據遠程反饋,可提前對護理人員進行預警提醒。
第六章 無僥幸天下:一個更安全的中國社會
6.1 要是此案在中國,早破了
據公開報道,深圳特區破獲的刑事案件中,有一半是通過視頻研判找到的破案線索;廣州的視頻破案率從2011年的10.51%躍升至2016年的70.96%;福建晉江利用視頻監控破獲的案件占案發總數的70%以上。全國各地還有數不勝數的城市公安部門,在刑偵支隊內設了視頻大隊。
6.3 邊緣計算:驅動計算之網
未來的攝像頭,將不僅僅被用來收集數據,它還會對數據進行整合、分析和處理。
信息之于人類,可以分為三類:圖像、文字、聲音。人類接收它們的方式,主要是視覺和聽覺,其中高達80%是通過視覺,剩下20%才是通過聲音。圖像不僅多,而且人類對圖像也遠比對聲音敏感。人工智能的目標是要用機器代替人,那首先就要讓機器具備視覺和聽覺,即用攝像頭取代人類的眼睛和耳朵。說得更具體一點,就是今天的普通攝像頭必須成為智能攝像頭。所謂智能攝像頭,是指不僅能夠錄制圖像,還可以分析圖像,甚至收集、分析聲音的攝像頭。
2011年,思科(Cisco)全球研發中心原總裁博諾米(Flavio Bonomi)開創性地提出了“霧計算(Fog Computing)”的框架和概念。霧,四處彌漫、無處不在,它可以被看作一種貼近地面的“云”。“霧計算”借用了霧這個“四處彌漫、無處不在”的形象。傳統的云計算是把所有的數據都集中起來處理,但“霧計算”把一部分數據存儲在網絡的邊緣設備當中,并賦予邊緣設備分析的能力,讓計算直接在邊緣發生,減少對數據傳輸和中心服務器的依賴。邏輯上分析,筆者更傾向于把“霧計算”稱為“邊緣計算”。這是一個新的趨勢。
6.4 軌跡追蹤:賦能公共安全
軌跡是一系列帶有時間標記的位置信息集合。
人和車的移動是城市動態性最顯著的體現。相對于人來說,車輛的體積較為龐大,它在交通路口必然會留下影像,加上車牌這個獨特的標識,很容易被識別出來。因此,只要城市路口有足夠多的攝像頭,就可以拍下一系列帶有“時間戳”的照片,再以車輛的車型、顏色、行車速度和駕駛人員特征為輔助,就可以畫出車輛行駛軌跡,并據此推測到天網未覆蓋區域的情況。
對車而言,天網最重要的部位是卡口。所謂卡口,是指城市中主要的、配有攝像頭的交通路口。卡口和電子警察并不相同,兩者的區別是,卡口會從正面拍下經過路口車輛的照片并識別車牌,而電子警察只針對闖紅燈等違章行為從尾部進行拍攝。對過往車輛,卡口的捕獲率已經超過99%。極個別的遺漏可能是因為車速過快,或者兩車相距太近互相遮擋。除了少數逆光、眩光的照片,絕大部分照片中的車牌號碼都可以被成功識別。
1992年的國家標準就禁用了英文字母“I”和“O”,以避免與阿拉伯數字“1”和“0”混淆;2008年頒布的《車輛號牌專用固封裝置》(GA804—2008)又規定,使用號牌架輔助安裝時,號牌架內側邊緣距離機動車登記編號字符邊緣必須大于5毫米;車牌架外框不得帶有標志、字母、裝飾圖案,更不得遮擋號牌字符,否則將被視為違法行為。這些規定都是為了方便機器識別車牌。
中國各地陸續開始推廣左上角印有二維碼的新型車輛號牌。二維碼信息與號碼相一致且具有唯一性,攝像頭和民警執法時掃描二維碼,就能更快、更方便地查對車輛信息,以甄別假牌、套牌車輛。
目前要實現卡口和停車場數據的連通,困難還很大,主要是因為城市停車場分屬不同的機構,是多頭管理。
6.5 硬盤和眼藥水為什么同時脫銷
每個基站都發出不同頻段的信號,當用戶從一個區域進入另一個區域時,手機就會從一個基站切換到另一個基站[插圖]。在此期間,如果進行通話、短信和開關機,都會被記錄下來。
除了利用基站圈定活動范圍,今天大部分智能手機都內置有GPS導航系統,或者能接入Wi-Fi信號。這兩種方式都可以輔助定位,而且精度比基站定位高很多,可以達到分米級。但是,這些數據都需要在用戶知情、同意并授權的情況下才可能采集。
這就是手機定位的軟肋,控制權被牢牢掌握在被追蹤人員的手中,機主只要關機,就可以切斷信號的追蹤。
6.6 無僥幸天下:大數據重建社會的安全和秩序
前文說到,交通卡口拍攝車輛的捕獲率已經達到99%,這屬于靜態識別,在技術上已經成熟,但動態識別的準確率就差得多,連評價的標準都難以定義。問題的根源在于環境的不可控,光線、角度的變化以及攝像頭質量參差不齊,這些問題導致所抓取圖片的質量有高有低,而最適合計算機識別的圖片應該是正面、免冠、無表情的人臉。
闖紅燈的場景介于靜態環境和不可控制的動態環境中間,屬于半控制的動態環境。
提高動態識別準確率的關鍵,在于控制拍照的環境。
第七章 數據造夢:為金融業挖出一座“金礦”
沒有生產線,沒有物流倉庫,沒有儀器設備,金融業本身就是數據生產、存儲、處理和傳輸的集合,它與大數據有著與生俱來的天然匹配。
7.1 點石成金:余額寶背后的大數據故事
余額寶的出現,是阿里巴巴集團數十年電子商務數據(含相關支付數據)積累的結果。它掌握了數以億計用戶的個人數據,通過對這些數據的分析挖掘,可以很好地預判用戶的違約概率等關鍵特征。
某種意義上,可以說正是這些事實上的“網絡版央行征信”般的數據,為余額寶的業務發展提供了基本條件,同時也降低了做小額貸款和信用卡業務的門檻。例如,阿里巴巴集團將用戶購物、支付、轉賬等數據提供給余額寶,余額寶的數據分析師們通過對這些數據的深度分析,可以更好地預估未來一定期限內贖回資金的規模,從而更好地安排貨幣基金的流動性;更進一步,還可以對用戶的特征進行分析,如用戶年齡、地域、瀏覽行為、搜索習慣、交易頻率等,可以更好地應對申購贖回,同時還可以對資金進行效益最高的期限配置。
余額寶匯集了自身業務數據、阿里巴巴集團的電商數據和螞蟻金服集團的支付數據,可用的基礎數據維度超過二十個。
7.2 技術升維:大數據風控破殼而出
數據分析系統正在取代傳統的風控模式,再用傳統的方式做風控已經不行了。
在新的時代背景下,對金融機構來說,大數據風控已經成為橫跨信貸、保險等場景的通用業務流程,成為普惠金融服務的重要環節。在最新的“中國金融科技創新企業估值榜中,大數據風控公司占比超過一半,數量達到32家。僅以其中第二名的京東金融為例,該公司有3000多名員工擔任風控和大數據相關崗位,占員工總數的比例超過五分之三。與傳統業務相比,大數據風控人工參與度低、效率高。
據了解,很多互聯網金融平臺的風控自動化水平非常高,不少都在80%以上,而貸前的信用評估、防欺詐等環節,更是已經實現100%模型決策。
顧名思義,大數據風控就是將海量的多維度數據輸入模型,由計算機系統自動判別借款資信狀況。大數據風控核心在于模型,尤其是變量特征,將輸入的數據做成成百上千的變量,用于交叉檢驗。這就好比如果一個人說了謊,就需要不斷地編織謊言去圓,但在大數據面前,這種謊言很快就會無所遁形,很容易被識別出來。
如果說模型是大數據風控的核心,那么數據,尤其是海量的數據,則是大數據風控的動力來源。目前可用于風控模型的數據主要掌握在互聯網平臺企業、金融監管部門、國有大型銀行手中,數據流通不暢,這對大數據風控在更大范圍、更高層次發揮作用其實是不利的。
7.3 火眼金睛:大數據金融監管走上舞臺
銀監會EAST系統在數據采集、監管數據模型積累和內部信息共享等方面取得了驕人的成績,但仍存在進一步提升的空間。例如,系統在打破內部信息壁壘的同時卻形成了自下而上的數據煙囪,一定程度上增加了金融監管數據與同級的工商、稅務、公安和司法等部門數據之間實現共享的難度,這就需要建立起跨行業、跨部門和跨層級的數據共享體系和多部門協同的立體監管體系。
數據方面,靈鯤擁有多個來源的海量黑產數據,為實現智能識別黑產、進而保護金融消費者提供了可靠的保障。靈鯤的數據來源除了微信和QQ等平臺的海量社交數據,還包括騰訊安全團隊與網絡黑產勢力十多年對抗經驗的沉淀與積累。數據內容除了擁有19年攻防經驗的QQ等場景的攻防數據,還包括億級的黑產設備、黑產工具和黑產軌跡數據等。
算法方面,靈鯤主要將重心放在金融黑產識別和涉眾金融風險預警兩個領域。在金融黑產識別領域,靈鯤建立了從行為監測、數據分析到結果判定的全流程管理,在有效的數據源管理的基礎上,通過對金融犯罪樣本的深度分析,構建各種反作惡算法模型和相應的決策引擎,實現對金融風險的自動識別。
在非法集資和涉眾金融風險預警領域,靈鯤主要以多源數據融合、多維度信息關聯、基于知識圖譜的平臺風險指數計算和涉眾人數增長異常預警等核心技術為基礎,對互聯網上活躍的金融平臺與服務進行全面的監測,進而利用相關算法計算風險指數,實現早期預警。
大數據監測預警金融風險平臺以大數據、云計算為技術支撐,構建針對5個領域、17個行業的分析模型。其核心功能是“冒煙指數”的計算,該指數包括5個主要維度,即合規性指數、收益率偏離指數、投訴舉報指數、傳播力指數和特征詞命中指數。
7.4 數據信托:一個全新的大數據金融產品
早在2016年9月,中航信托就率先發行了首單基于數據資產的信托產品,總規模為3000萬元,是第一家將數據做成金融產品的信托公司,也是業內第一家明確提出“數據是一種資產”的公司。
數據信托,就是委托人將其所擁有的數據資產作為信托財產設立信托。受托人按照委托人意愿聘用專業服務商對數據進行專業管理與運營,通過數據的運營所產生的增值收益作為信托利益,用于分配給信托投資者;而委托人則通過信托收益權轉讓的方式獲取現金對價,以信托財產的方式實現數據資產的價值變現。
大數據的商業使用要求與信托財產的獨立性和安全性具有天然契合性。**數據資產的特殊性在于:個體數據所有者、數據的控制者和數據利益的享有者之間存在相互分離的現象。**這種分離,使數據資產的各項權能安排可以通過信托財產制度得以有效落實,也就是說,數據資產成為信托財產不僅具有合理性,更具有可操作性。
通過數據信托,既可以有效解決數據資產的授權使用問題,又可以對數據資產的收益作出合理安排。
根據委托人所承擔角色的不同,委托人可分為數據生產商和數據運營商兩種,前者是委托自身產生的數據,后者是委托非自身產生但合法取得的數據。數據生產商可以通過設立信托,將其所屬的核心數據資產作為信托財產;數據運營商基于合法途徑取得對數據的控制和使用權,即可將這部分數據資產作為信托財產設立信托。
7.5 浪潮席卷:一個無可限量的市場
在金融大數據席卷一切的同時,金融大數據的發展也面臨著許多困難和阻礙,如信息孤島現象嚴重、數據流通不暢和數據整合難度大等。但瑕不掩瑜,相比其他行業來說,我國金融行業的大數據技術應用處于領先水平,已基本完成業務系統信息化和原始的數據積累工作,目前正在從以數據采集自動化與業務信息化為特征的初級階段向更高階段轉型升級。高級階段的特征主要表現為數據的共享利用和復雜算法的應用等,在具體應用領域上將表現在利用大數據加強風險管控、促進精細化管理和支持服務創新等方面。
大數據在加強風險管控、促進精細化管理和支持服務創新等方面具有很強的現實意義。
未來,大數據與金融的結合將更加具體到不同的細分領域,會與這些細分場景緊密融合,如信貸、支付和保險等。以信貸場景為例,大數據不僅在風控環節發揮作用,還會在貸前、貸中和貸后的全流程都與原有業務深度融合。依靠更精細的全域用戶畫像,大數據在獲客、反欺詐、風險定價等環節都將得到商業化的機會,這也將大幅提升相關細分行業的經濟效率。
當大數據在信貸場景和支付場景的滲透率達到一定水平后,下一個爆點可能是保險場景。相對銀行來說,保險行業的IT基礎設施與大數據應用水平較為落后。
總結
以上是生活随笔為你收集整理的《善数者成:大数据改变中国》读书笔记2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《工业控制网络安全技术与实践》一第1章
- 下一篇: 动态规划——最长湍流子数组