【论文解读】百度提出新冠高风险小区预警算法,AAAI21收录!
編:夕小瑤
幾個(gè)月前,小屋推送了一期上帝視角看新型冠狀病毒(COVID-19)對(duì)公眾出行影響的頂會(huì)論文解讀——《這篇頂會(huì)paper,講述了疫情期間憋瘋的你和我》,這篇有趣的paper來(lái)自百度地圖團(tuán)隊(duì),發(fā)表在KDD2020。
幾個(gè)月后,新冠病毒仍在全球范圍肆虐,并對(duì)人們的日常工作與生活產(chǎn)生了嚴(yán)重的影響。與此同時(shí),社會(huì)責(zé)任感爆棚的百度研究人員再次發(fā)揮時(shí)空大數(shù)據(jù)優(yōu)勢(shì),又發(fā)表一篇硬剛新冠疫情的最新研究成果!這次的研究不單是有趣,還在科學(xué)疫情防控方面具有很高的應(yīng)用價(jià)值。
引言
關(guān)注疫情動(dòng)態(tài)的小伙伴都有所了解,面對(duì)疫情,目前有效的非藥物干預(yù)方案通常需要及時(shí)、準(zhǔn)確地在城市中選擇一些高風(fēng)險(xiǎn)區(qū)域進(jìn)行重點(diǎn)疫情防控,例如出行限制甚至病例隔離。對(duì)于高風(fēng)險(xiǎn)區(qū)域的預(yù)測(cè),現(xiàn)有的研究工作主要將已確診病例的空間分布視為重要依據(jù),其主要問(wèn)題在于確診病例的統(tǒng)計(jì)數(shù)據(jù)往往粒度過(guò)粗且通常具有滯后性,同時(shí),不少新冠病毒攜帶者在確診前就可能已經(jīng)將病毒傳播開(kāi)了。
為了解決這些問(wèn)題,百度的研究人員提出了一個(gè)名為C-Watcher的機(jī)器學(xué)習(xí)框架,旨在從新冠疫情重災(zāi)區(qū)傳播到目標(biāo)城市之前,預(yù)測(cè)出目標(biāo)城市中每個(gè)社區(qū)的疫情感染風(fēng)險(xiǎn)。
首先,C-Watcher從百度地圖數(shù)據(jù)中抽取了多種特征來(lái)刻畫(huà)城市中的每個(gè)住宅小區(qū)。其次,為了在疫情爆發(fā)前將有助于識(shí)別風(fēng)險(xiǎn)的知識(shí)及時(shí)遷移到目標(biāo)城市,研究人員提出了一個(gè)創(chuàng)新性的對(duì)抗編碼器框架,可以提取疫情重災(zāi)區(qū)城市和目標(biāo)城市之間的共性特征,并從中學(xué)習(xí)高風(fēng)險(xiǎn)社區(qū)的普遍特點(diǎn)。利用該方法從城市相關(guān)的特征中抽取有用信息,可以實(shí)現(xiàn)在目標(biāo)城市進(jìn)行早期高風(fēng)險(xiǎn)小區(qū)的高效預(yù)測(cè)。基于國(guó)內(nèi)COVID-19爆發(fā)早期的真實(shí)數(shù)據(jù)對(duì)C-Watcher進(jìn)行評(píng)測(cè)后,實(shí)驗(yàn)結(jié)果表明C-Watcher能夠在疫情早期有效地從大量住宅小區(qū)中成功篩查出高風(fēng)險(xiǎn)小區(qū)。該論文已入選人工智能領(lǐng)域頂級(jí)會(huì)議AAAI 2021,向國(guó)際同行分享科學(xué)抗疫最新研究成果。
▲圖1 C-Watcher 的使用場(chǎng)景論文名稱(chēng):
C-Watcher: A Framework for Early Detection of High-Risk Neighborhoods Ahead of COVID-19 Outbreak
論文鏈接:
https://arxiv.org/abs/2012.12169
Arxiv訪問(wèn)慢的小伙伴也可以在 【夕小瑤的賣(mài)萌屋】訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞 【0205】 下載論文PDF~
小區(qū)特征構(gòu)建
本文基于百度地圖數(shù)據(jù)抽取特征來(lái)描述住宅小區(qū)的社會(huì)經(jīng)濟(jì)情況、人口特點(diǎn)以及時(shí)空遷徙情況,主要包括POI半徑特征(POI Radius Features)、人口學(xué)特征(Demographic Features)和交通方式特征(Transportation-related Features)等。這里以POI半徑特征(POI Radius Features)為例做簡(jiǎn)要介紹。
POI半徑特征主要反映一個(gè)住宅小區(qū)周邊的基礎(chǔ)設(shè)施情況,因?yàn)樾^(qū)住戶感染新冠的風(fēng)險(xiǎn)與基礎(chǔ)設(shè)施水平具有緊密的聯(lián)系。如果周邊基礎(chǔ)設(shè)施不完備,住戶往往需要到更遠(yuǎn)的地方以滿足日常生活基本需求;同時(shí),基礎(chǔ)設(shè)施匱乏的小區(qū)往往物業(yè)管理不夠科學(xué)與精細(xì),在科學(xué)疫情防控力度上存在較大差異,這都可能增加新冠傳播風(fēng)險(xiǎn)。作者構(gòu)建了15種POI半徑(如醫(yī)院半徑)來(lái)刻畫(huà)小區(qū)的基礎(chǔ)設(shè)施,每種POI半徑均定義為該小區(qū)到某種類(lèi)別POI(如醫(yī)院)的最短直線距離,圖2(a)中示意了POI半徑特征的計(jì)算規(guī)則。
為了更直接地反映基礎(chǔ)設(shè)施的完備情況,作者還構(gòu)建了一個(gè)二值的基礎(chǔ)設(shè)施完備水平指標(biāo),將半徑1km內(nèi)同時(shí)含有醫(yī)院、學(xué)校、餐廳等多種基礎(chǔ)生活設(shè)施的小區(qū)視為基礎(chǔ)設(shè)施完備的小區(qū),如圖2(b)所示。
文中對(duì)新冠爆發(fā)初期武漢市高/低風(fēng)險(xiǎn)小區(qū)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后,發(fā)現(xiàn)新冠風(fēng)險(xiǎn)確實(shí)與基礎(chǔ)設(shè)施存在較強(qiáng)的相關(guān)性。如圖2(c)所示,大部分高風(fēng)險(xiǎn)小區(qū)的基礎(chǔ)設(shè)施都不完備;與此相反,大部分低風(fēng)險(xiǎn)小區(qū)具有更為完備的基礎(chǔ)設(shè)施。
方法
圖3展示了在目標(biāo)城市預(yù)測(cè)新冠高風(fēng)險(xiǎn)小區(qū)的城市遷移學(xué)習(xí)模型的總體框架。
▲圖3 城市遷移學(xué)習(xí)模型總覽該模型是一個(gè)對(duì)抗編碼器-解碼器框架,能夠提取疫情重災(zāi)區(qū)城市(epicenter city)和目標(biāo)城市之間(target city)的共性特征,并依靠重災(zāi)區(qū)城市的大量數(shù)據(jù),從中學(xué)習(xí)高風(fēng)險(xiǎn)社區(qū)的普遍特點(diǎn),再將這種共性的知識(shí)遷移到疫情尚未爆發(fā)的目標(biāo)城市,實(shí)現(xiàn)早期的高風(fēng)險(xiǎn)小區(qū)預(yù)測(cè)。模型主要有兩部分組成:1)利用對(duì)抗學(xué)習(xí)框架提取城市間的共性特征;2)對(duì)表征空間進(jìn)行約束,實(shí)現(xiàn)新冠高風(fēng)險(xiǎn)小區(qū)預(yù)測(cè)。
對(duì)抗學(xué)習(xí)框架
對(duì)抗學(xué)習(xí)框架由編碼器(encoder)和鑒別器(discriminator)構(gòu)成,如圖4所示:
▲圖4 對(duì)抗學(xué)習(xí)框架Encoder將住宅小區(qū)的特征向量 n 作為輸入,具體地記 n^E 為epicenter cities中小區(qū)的特征向量,n^T 為target city中小區(qū)的特征向量,輸出編碼后的表征向量。通常來(lái)說(shuō),因?yàn)榫幋a后的表征向量來(lái)自于對(duì)不同城市的住宅小區(qū)的描述,它們的分布存在較大差異,這種差異使得encoder提取到高風(fēng)險(xiǎn)小區(qū)的特點(diǎn)可能僅適用于epicenter city,這阻礙了模型將epicenter cities中學(xué)到的經(jīng)驗(yàn)遷移到target city。
為了解決這個(gè)問(wèn)題,作者引入了discriminator來(lái)縮小編碼后表征向量在分布上的差異。Discriminator是一個(gè)分類(lèi)器,它的作用是從Encoder輸出的表征中區(qū)分出樣本來(lái)自epicenter cities還是target city,即把編碼后的表征向量作為輸入,并完成一個(gè)二分類(lèi)任務(wù),將來(lái)自于epicenter cities的編碼表征向量,和來(lái)自于target city的編碼表征向量判定為不同的兩類(lèi)。相反的是,encoder學(xué)習(xí)來(lái)自兩個(gè)不同城市樣本的共性特征,讓discriminator難以正確分類(lèi)。
表征空間約束
在Adversarial Learning的框架中,Encoder僅僅能夠?qū)W到epicenter cities和target city中小區(qū)樣本的共性特征,為了提高新冠風(fēng)險(xiǎn)的識(shí)別能力,作者引入圖5中的模塊對(duì)表征空間進(jìn)行約束,主要包括特征重構(gòu)和新冠高風(fēng)險(xiǎn)小區(qū)識(shí)別分類(lèi)兩部分。
▲圖5 表征空間約束示特征重構(gòu)部分包括Encoder以及兩個(gè)Decoder,兩個(gè)Decoder分別用于epicenter cities和target city中小區(qū)特征的重構(gòu)。將Encoder輸出的表征向量輸入Decoder,得到解碼后的表征向量,利用重構(gòu)損失函數(shù)優(yōu)化Encoder和Decoder,使得Decoder能夠從編碼后的表征中恢復(fù)出原始輸入,以保證Encoder學(xué)習(xí)到的表征仍然具有描述一個(gè)小區(qū)的信息,而不是單純地能夠在epicenter cities和target city中相似。
高風(fēng)險(xiǎn)小區(qū)識(shí)別分類(lèi)的部分則有Encoder和Classifier組成。Classifier將epicenter cities小區(qū)的編碼表征向量作為輸入,利用epicenter cities中大量有標(biāo)記樣本,讓Encoder從中提取能夠判斷新冠風(fēng)險(xiǎn)的特征。
“Reference city”驗(yàn)證機(jī)制
由于C-Watcher的設(shè)計(jì)是為了在沒(méi)有爆發(fā)疫情的目標(biāo)城市進(jìn)行高風(fēng)險(xiǎn)小區(qū)的早期預(yù)測(cè),為了避免將目標(biāo)城市高風(fēng)險(xiǎn)小區(qū)的先驗(yàn)信息引入模型的超參數(shù)中,作者提出了“reference city”驗(yàn)證機(jī)制,為模型選擇合適的超參數(shù)。C-Watcher使用epicenter city的數(shù)據(jù)訓(xùn)練模型,并將reference city的真值數(shù)據(jù)當(dāng)作驗(yàn)證集來(lái)選擇模型的超參數(shù)。在本文中,reference city是按照距離target city最近的城市作為標(biāo)準(zhǔn)來(lái)選取的。圖6對(duì)該驗(yàn)證機(jī)制作了簡(jiǎn)單介紹。
▲圖6 “Reference city“驗(yàn)證機(jī)制實(shí)驗(yàn)分析
新冠高風(fēng)險(xiǎn)小區(qū)早期預(yù)測(cè)
作者收集了國(guó)內(nèi)新冠肺炎爆發(fā)初期16個(gè)城市的高風(fēng)險(xiǎn)小區(qū)數(shù)據(jù)對(duì)C-Watcher進(jìn)行測(cè)試,其中包含重災(zāi)區(qū)武漢市,5個(gè)參考城市和10個(gè)目標(biāo)城市。C-Watcher在目標(biāo)城市上的預(yù)測(cè)性能遠(yuǎn)好于不采用城市遷移學(xué)習(xí)的機(jī)器學(xué)習(xí)模型。
▲表1 目標(biāo)城市高風(fēng)險(xiǎn)小區(qū)預(yù)測(cè)性能對(duì)比特征重要性分析
作者還采用Lasso Logistic Regression的方法,以各個(gè)特征系數(shù)的絕對(duì)值為依據(jù),篩選出最重要的20個(gè)特征,如圖7所示。
▲圖7 Lasso系數(shù)最大的20個(gè)特征從中我們可以獲得一些對(duì)新冠疫情防控具有指導(dǎo)意義的信息。比如,實(shí)驗(yàn)結(jié)果表明,在POI半徑特征中,除了二值的基礎(chǔ)生活設(shè)施指數(shù)特征(P: PFLF & P: PRLF)與新冠風(fēng)險(xiǎn)顯著相關(guān)以外,距火車(chē)站遠(yuǎn)(P: RTS)的住宅小區(qū)風(fēng)險(xiǎn)較低。
總結(jié)
本文提出了一個(gè)識(shí)別城市中新冠高風(fēng)險(xiǎn)小區(qū)的框架C-Watcher,它基于百度地圖數(shù)據(jù)提取了大量描述住宅小區(qū)的社會(huì)經(jīng)濟(jì)情況、人口特點(diǎn)以及時(shí)空遷徙情況等有助于識(shí)別新冠風(fēng)險(xiǎn)的特征,采用對(duì)抗學(xué)習(xí)的框架從重災(zāi)區(qū)學(xué)習(xí)高風(fēng)險(xiǎn)小區(qū)的特點(diǎn),并將這些知識(shí)遷移到未爆發(fā)疫情的目標(biāo)城市,實(shí)現(xiàn)了在早期階段對(duì)潛在新冠高風(fēng)險(xiǎn)小區(qū)進(jìn)行預(yù)測(cè)。
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯 本站qq群704220115,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【论文解读】百度提出新冠高风险小区预警算法,AAAI21收录!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Win7系统提示NVIDIA显示设置不可
- 下一篇: 如何在QQ浏览器查看默认搜索引擎