百度提出新冠高风险小区预警算法,AAAI21收录!
編:夕小瑤
幾個月前,小屋推送了一期上帝視角看新型冠狀病毒(COVID-19)對公眾出行影響的頂會論文解讀——《這篇頂會paper,講述了疫情期間憋瘋的你和我》,這篇有趣的paper來自百度地圖團隊,發表在KDD2020。
幾個月后,新冠病毒仍在全球范圍肆虐,并對人們的日常工作與生活產生了嚴重的影響。與此同時,社會責任感爆棚的百度研究人員再次發揮時空大數據優勢,又發表一篇硬剛新冠疫情的最新研究成果!這次的研究不單是有趣,還在科學疫情防控方面具有很高的應用價值。
引言
關注疫情動態的小伙伴都有所了解,面對疫情,目前有效的非藥物干預方案通常需要及時、準確地在城市中選擇一些高風險區域進行重點疫情防控,例如出行限制甚至病例隔離。對于高風險區域的預測,現有的研究工作主要將已確診病例的空間分布視為重要依據,其主要問題在于確診病例的統計數據往往粒度過粗且通常具有滯后性,同時,不少新冠病毒攜帶者在確診前就可能已經將病毒傳播開了。
為了解決這些問題,百度的研究人員提出了一個名為C-Watcher的機器學習框架,旨在從新冠疫情重災區傳播到目標城市之前,預測出目標城市中每個社區的疫情感染風險。
首先,C-Watcher從百度地圖數據中抽取了多種特征來刻畫城市中的每個住宅小區。其次,為了在疫情爆發前將有助于識別風險的知識及時遷移到目標城市,研究人員提出了一個創新性的對抗編碼器框架,可以提取疫情重災區城市和目標城市之間的共性特征,并從中學習高風險社區的普遍特點。利用該方法從城市相關的特征中抽取有用信息,可以實現在目標城市進行早期高風險小區的高效預測。基于國內COVID-19爆發早期的真實數據對C-Watcher進行評測后,實驗結果表明C-Watcher能夠在疫情早期有效地從大量住宅小區中成功篩查出高風險小區。該論文已入選人工智能領域頂級會議AAAI 2021,向國際同行分享科學抗疫最新研究成果。
▲圖1 C-Watcher 的使用場景論文名稱:
C-Watcher: A Framework for Early Detection of High-Risk Neighborhoods Ahead of COVID-19 Outbreak
論文鏈接:
https://arxiv.org/abs/2012.12169
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0205】 下載論文PDF~
小區特征構建
本文基于百度地圖數據抽取特征來描述住宅小區的社會經濟情況、人口特點以及時空遷徙情況,主要包括POI半徑特征(POI Radius Features)、人口學特征(Demographic Features)和交通方式特征(Transportation-related Features)等。這里以POI半徑特征(POI Radius Features)為例做簡要介紹。
POI半徑特征主要反映一個住宅小區周邊的基礎設施情況,因為小區住戶感染新冠的風險與基礎設施水平具有緊密的聯系。如果周邊基礎設施不完備,住戶往往需要到更遠的地方以滿足日常生活基本需求;同時,基礎設施匱乏的小區往往物業管理不夠科學與精細,在科學疫情防控力度上存在較大差異,這都可能增加新冠傳播風險。作者構建了15種POI半徑(如醫院半徑)來刻畫小區的基礎設施,每種POI半徑均定義為該小區到某種類別POI(如醫院)的最短直線距離,圖2(a)中示意了POI半徑特征的計算規則。
為了更直接地反映基礎設施的完備情況,作者還構建了一個二值的基礎設施完備水平指標,將半徑1km內同時含有醫院、學校、餐廳等多種基礎生活設施的小區視為基礎設施完備的小區,如圖2(b)所示。
文中對新冠爆發初期武漢市高/低風險小區的數據進行統計后,發現新冠風險確實與基礎設施存在較強的相關性。如圖2(c)所示,大部分高風險小區的基礎設施都不完備;與此相反,大部分低風險小區具有更為完備的基礎設施。
方法
圖3展示了在目標城市預測新冠高風險小區的城市遷移學習模型的總體框架。
▲圖3 城市遷移學習模型總覽該模型是一個對抗編碼器-解碼器框架,能夠提取疫情重災區城市(epicenter city)和目標城市之間(target city)的共性特征,并依靠重災區城市的大量數據,從中學習高風險社區的普遍特點,再將這種共性的知識遷移到疫情尚未爆發的目標城市,實現早期的高風險小區預測。模型主要有兩部分組成:1)利用對抗學習框架提取城市間的共性特征;2)對表征空間進行約束,實現新冠高風險小區預測。
對抗學習框架
對抗學習框架由編碼器(encoder)和鑒別器(discriminator)構成,如圖4所示:
▲圖4 對抗學習框架Encoder將住宅小區的特征向量 n 作為輸入,具體地記 n^E 為epicenter cities中小區的特征向量,n^T 為target city中小區的特征向量,輸出編碼后的表征向量。通常來說,因為編碼后的表征向量來自于對不同城市的住宅小區的描述,它們的分布存在較大差異,這種差異使得encoder提取到高風險小區的特點可能僅適用于epicenter city,這阻礙了模型將epicenter cities中學到的經驗遷移到target city。
為了解決這個問題,作者引入了discriminator來縮小編碼后表征向量在分布上的差異。Discriminator是一個分類器,它的作用是從Encoder輸出的表征中區分出樣本來自epicenter cities還是target city,即把編碼后的表征向量作為輸入,并完成一個二分類任務,將來自于epicenter cities的編碼表征向量,和來自于target city的編碼表征向量判定為不同的兩類。相反的是,encoder學習來自兩個不同城市樣本的共性特征,讓discriminator難以正確分類。
表征空間約束
在Adversarial Learning的框架中,Encoder僅僅能夠學到epicenter cities和target city中小區樣本的共性特征,為了提高新冠風險的識別能力,作者引入圖5中的模塊對表征空間進行約束,主要包括特征重構和新冠高風險小區識別分類兩部分。
▲圖5 表征空間約束示特征重構部分包括Encoder以及兩個Decoder,兩個Decoder分別用于epicenter cities和target city中小區特征的重構。將Encoder輸出的表征向量輸入Decoder,得到解碼后的表征向量,利用重構損失函數優化Encoder和Decoder,使得Decoder能夠從編碼后的表征中恢復出原始輸入,以保證Encoder學習到的表征仍然具有描述一個小區的信息,而不是單純地能夠在epicenter cities和target city中相似。
高風險小區識別分類的部分則有Encoder和Classifier組成。Classifier將epicenter cities小區的編碼表征向量作為輸入,利用epicenter cities中大量有標記樣本,讓Encoder從中提取能夠判斷新冠風險的特征。
“Reference city”驗證機制
由于C-Watcher的設計是為了在沒有爆發疫情的目標城市進行高風險小區的早期預測,為了避免將目標城市高風險小區的先驗信息引入模型的超參數中,作者提出了“reference city”驗證機制,為模型選擇合適的超參數。C-Watcher使用epicenter city的數據訓練模型,并將reference city的真值數據當作驗證集來選擇模型的超參數。在本文中,reference city是按照距離target city最近的城市作為標準來選取的。圖6對該驗證機制作了簡單介紹。
▲圖6 “Reference city“驗證機制實驗分析
新冠高風險小區早期預測
作者收集了國內新冠肺炎爆發初期16個城市的高風險小區數據對C-Watcher進行測試,其中包含重災區武漢市,5個參考城市和10個目標城市。C-Watcher在目標城市上的預測性能遠好于不采用城市遷移學習的機器學習模型。
▲表1 目標城市高風險小區預測性能對比特征重要性分析
作者還采用Lasso Logistic Regression的方法,以各個特征系數的絕對值為依據,篩選出最重要的20個特征,如圖7所示。
▲圖7 Lasso系數最大的20個特征從中我們可以獲得一些對新冠疫情防控具有指導意義的信息。比如,實驗結果表明,在POI半徑特征中,除了二值的基礎生活設施指數特征(P: PFLF & P: PRLF)與新冠風險顯著相關以外,距火車站遠(P: RTS)的住宅小區風險較低。
總結
本文提出了一個識別城市中新冠高風險小區的框架C-Watcher,它基于百度地圖數據提取了大量描述住宅小區的社會經濟情況、人口特點以及時空遷徙情況等有助于識別新冠風險的特征,采用對抗學習的框架從重災區學習高風險小區的特點,并將這些知識遷移到未爆發疫情的目標城市,實現了在早期階段對潛在新冠高風險小區進行預測。
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的百度提出新冠高风险小区预警算法,AAAI21收录!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google、MS和BAT教给我的面试真
- 下一篇: 速览EMNLP 2020上录取的知识图谱