论文笔记:Missing Value Imputation for Multi-view UrbanStatistical Data via Spatial Correlation Learning
TKDE 2021(Apr)
0 摘要
????????作為城市化的發展趨勢,海量的多視角(如人口和經濟視角)的城市統計數據被越來越多地收集并受益于不同領域,包括交通服務、區域分析等。
????????劃分為細粒度區域的數據在獲取和存儲過程中通常會遇到缺失值問題。這主要是由于一些不可避免的情況造成的,例如文件污損、偏遠地區統計困難、信息清理不準確等。那些使有價值信息不可見的缺失條目可能會扭曲進一步的城市分析。
????????為了提高缺失數據插補的質量,我們提出了一種改進的空間多核學習方法,結合自適應權重非負矩陣分解策略來指導交通插補過程(traffic imputation)。我們的X模型考慮了區域潛在相似性和真實地理位置以及能夠精確完成缺失值的各種視圖之間的相關性。
????????我們進行了大量實驗來評估我們的方法,并在現實世界的數據集上與其他最先進的方法進行比較。所有的實證結果表明,所提出的模型優于所有其他最先進的方法。此外,我們的模型代表了跨多個城市的強大泛化能力。
1 introduction
圖1是一個多視角區域統計結果
????????區域r2包括了四個不同視角的數據:經濟、家庭、人口、收入
????????這種統計數據是很重要的。但是在一些地方,因為數據收集、儲存等一些原因,統計數據并不能完全得到,這就導致了數據缺失和數據稀疏的問題。
? ? ? ? 這些數據缺失和稀疏的問題會導致分析結果有可能偏離實際情況。比如在POI 推薦中,經濟和人口是兩個主要的決定因素,如果一個區域經濟維度的屬性缺失甚多,那么很大概率POI推薦會根據人口的聚集情況進行推薦,因為它基本上只能考慮人口這一個維度的屬性。
? ? ? ? 因此,一個對于城市統計數據的補全模型是需要,而且是重要的。
? ? ? ? 在這篇論文中,我們探索了澳洲統計局ABS和新西蘭統計局NZS提供的城市統計數據中的確實數據補全問題。
? ? ? ? 這種多視圖城市統計數據的缺失值插補任務比完成其他數據集的缺失值要困難得多,因為這類問題有一些獨特的挑戰: ?
- ?空間關聯性的挖掘
? ? ? ? 不同區域的統計數據可能因為地點的不同而顯著而又非線性地變化,因此,潛在的空間關聯性需要在分析空間相關的數據中進行考慮。
? ? ? ? 因此,為了合適地恢復統計數據的丟失信息,我們需要較為精準地考慮空間相似性。
?????????
?????????在圖1中,我們會發現,區域r1和悉尼歌劇院的屬性是很相似的,因為它們是挨著的;
? ? ? ? 與此同時,盡管區域r2和空間在物理空間上是更近的,但是由于r2和悉尼歌劇院有相似的功能屬性,所以r2和悉尼歌劇院的屬性相似。
- ?多維度屬性關聯性的問題
? ? ? ? 如果我們只是簡單地分別恢復缺失的信息,而不考慮各個屬性之間的關聯性,那么我們的模型最終不一定會有很好的表現。
? ? ? ? 打個比方,經濟相關的屬性(economy),通常和收入(income)、人口(population)屬性有著強關聯(經濟高的區域通常收入好人口多)。如果我們只是分別考慮經濟、收入和人口,而不考慮它們的關聯性的話,那么不一定會有很好的補全結果。
? ? ? ? 因此,如何整合各個維度的數據,是一個核心的問題
- ?時間信息的缺失
? ? ? ? 在這類問題中,今年缺失的數據,去年、前年一樣缺失。這可能由于區域數據收集的限制或者其他一些原因。
? ? ? ? 基于這個現象,時間維度的特點是無法建模得到的。
? ? ? ? 同時,這一種情況也不符合矩陣補全的最基本假設:沒有觀測到的內容是在一個完整的矩陣中隨機取出的。
????????因此,基于矩陣補全任務的方法可能不能很好地工作。
? ? ? ? 這幾年,盡管有一些方法(mean-filling,KNN)在單維度數據補全問題上有不俗的表現,但是他們在多維度數據補全問題上表現不佳,尤其當引入空間屬性之后。
? ? ? ? ?與此同時,盡管一些時空數據挖掘的方法可以基于時間和空間的知識,推斷出缺失的信息,但是如果遇到前面說的“時間信息的缺失”問題,它們的表現也不理想。
? ? ? ? 為了很好地應對所有挑戰,我們通過空間相關性學習設計了一個模型。 具體而言,該方法集成了空間多核聚類方法和自適應權重非負矩陣分解(NMF)方法來解決多視圖空間相關任務。
?本文的貢獻如下:
- 為了解決具有空間特征的多視圖問題,我們設計了一種空間相關的多核 K 均值 (S-MKKM) 方法來識別多視圖之間的潛在關系并捕獲區域相似性。
- 我們提出了一種自適應權重非負矩陣分解方法,以利用上面學到的信息來解決多視圖缺失數據插補問題。 此外,所提出的方法還考慮了單視圖信息補全模型的特點,同時考慮了?KNN 策略來利用真實地理信息。
- 提出了一種基于空間相關性學習的城市統計數據多視圖缺失數據插補方法,稱為SMV-NMF。 SMV-NMF 不依賴于時間信息,而是通過僅使用空間信息實現了很好的性能。
- 我們對六個真實世界的數據集進行了一系列實驗,以證明我們的方法與其他最先進模型相比的有效性。 所有的評估結果表明,所提出的方法 SMV-NMF 產生了最好的性能。 此外,SMV-NMF 顯示出強大的泛化能力,可以很好地將構建的模型從一個城市數據集轉移到另一個。
2 相關工作
2.1 時空數據中的丟失數據補全問題
? ? ? ? 在空間相關領域,使用 鄰居和協同過濾的方法是兩種主要的填充缺失值的方法。
???????? 盡管一些傳統的補全方法(比如補零、均值填充、回歸模型)可以被應用在數據補全問題中,但他們并不能很好地適配空間數據問題
????????【21】使用距離的倒數加權(IDW inverse distance weighting)方法對空間降雨分布進行插值。(“Estimation of the spatial rainfall distribution?using inverse distance weighting (idw) in the middle of taiwan,”)
? ? ? ? 【22】利用空間信息作為殘差克里金法(residual kriginf)的輸入來估計月平均溫度。(
“Spatial interpolation of temperature in the united states using residual kriging,”)? ? ? ? ?不像空間模型,一些成功的時空模型被提出用于時間流數據
? ? ? ? [8]開發了一種時空多視圖方法 (ST-MVL) 來共同完成地理傳感時間序列數據集合中的缺失值。 它考慮了
???????????????? 1) 同一時間序列中不同時間跨度的讀數之間的時間相關性
? ? ? ? ? ? ? ? ?2) 不同時間序列之間的空間相關性。
????????然而,他們通過考慮空間和時間屬性來填充缺失的條目,在沒有時間信息的靜態空間數據上表現不佳。 此外,這種方法沒有考慮多視圖數據集的問題。
(“St-mvl: fifilling missing values in geo-sensory time series data.” IJCAI 2016)
?????????在這里,我們還討論了實時應用中使用的其他時空缺失數據插補方法。
????????對于大型城市網絡,我們面臨著數據并非無處不在的事實,尤其是在實時系統中,可能沒有足夠的時間來收集完整的數據。
? ? ? ? 一種簡單的方法就是將缺失數據周圍值的平均值填入。
? ? ? ? [24] 通過“擴展貝葉斯網絡”處理缺失數據。
????????????????他們利用交通網絡中的因果關系,將缺失數據替換為其因果變量來構建網絡。
????????????????這種方法的主要不足在于,一旦貝葉斯網絡的結構和參數訓練好,缺失數據的相對位置和時間也就固定了。 這通常是不真實的,因為數據可能會在不同的時間和地點丟失。
???????????????? 換句話說,一個模型只能處理一種缺失數據的情況。 如果我們面對的是一個真實的交通網絡,我們不可能枚舉每一個條件并為每一個條件訓練一個模型。
“A bayesian network approach to traffific flflow forecasting,”矩陣分解:? ?
? ? ? ? ? ? [25]通過矩陣分解的方法進行數據補全。交通數據被構建成一個矩陣,其中矩陣的每一個條目表示點i和點j之間的交通速度。
????????????????基于非負矩陣三角分解框架,得到節點的潛在屬性矩陣和屬性交互矩陣。 ?
?“Latent space model for road networks to predict time-varying traffific,” ?KDD2016
????????[26]通過使用拉普拉斯矩陣最小化已知誤差和約束,通過用因子矩陣重建數據矩陣來完成缺失數據的補全。?“Locality preserving projections,”
張量分解:? ? ??
? 【28】使用張量分解分解來補全缺省的交通路網數據。他使用 CP 分解的加權優化版本來估算缺失的數據。
“Scalable?tensor factorizations for incomplete data,”????????[29] 通過 Tucker 分解改進了這種方法。 即使數據缺失率非常高(高達 75%),他們也得到了相對準確的結果。 這些方法將數據組織為三向張量,具有日模式、小時模式和間隔模式。
“A tensor-based method for missing traffific data completion,”? ? ? ?[ 30]【31】使用這種方法分析浮動汽車數據并獲得更好的交通狀態覆蓋。 在這篇論文中,數據被組織為邊連接模式、間隔模式和日模式的三向張量。
“Using tensor completion method to achieving better coverage of traffific state estimation from sparse flfloating car data,” “A new traffific prediction method based on dynamic tensor completion,”????????這些基于張量的方法有兩個主要問題。
???????????????? 首先,他們一次只能處理一條道路或幾條路段,這對于全市交通網絡來說是不夠的。
????????????????其次,他們沒有定義選擇張量分解秩的規則,但秩是張量分解最關鍵的參數之一。
?2.2 multi-view learning
????????多視圖學習方法涉及不同視圖的多樣性,可以基于各種特征子集子數據集進行優化。
????????[34] 提出了一種基于矩陣協同分解的方法 (MVL-IV),將不同的視圖嵌入到共享子空間中,這樣不完整的視圖可以通過觀察到的視圖的信息來估計。 ??
? ? ? ? ?為了將不同的視圖聯系起來,MVL-IV假定不同的視圖有不同的特征矩陣,但是不同的視圖滿足同一個系數矩陣
? ? ? ? ??然而,它沒有利用空間相關性并且可能會遇到數據不平衡問題,即如果視圖之間存在大量缺失的數據,則系數矩陣 W 主要是從數據密集的視圖中學習的。
????????解決多視圖問題的另一種廣泛使用的策略是張量分解[35]、[36],但這限制了需要每個視圖的維數相同的常規張量。 ?
????????此外,具有不完整視圖的多核學習 [37]、[38] 只關注完成缺失的核而不是填充缺失值。
????????據我們所知,上述研究均未考慮空間和多視圖問題。 因此,本文提出了一種有效的多視圖城市統計數據缺失值插補模型。 ?
3 問題定義和preliminary
3.1 問題定義
? ? ? ? 給定不完全的靜態城市數據集,其中有n個不同的區域(r1,...rn),以及d個不同的視圖(第p個視圖的維度我們表示為)。這篇論文旨在找到視圖之間的關聯性,以及精確地填充缺失信息。
| 本文設計的符號 | 定義 |
| 原始數據矩陣,包含 d 個視圖 | |
| 潛在空間矩陣,p 表示第 p 個視圖 | |
| 第 p 個視圖的所有完整條目和缺失條目的指示矩陣 (0-1矩陣) | |
| k;l | 潛在空間的維數; 和集群的數量 |
| 區域數量; 視圖數量; 第 p 個視圖中的屬性維度 | |
| 第p個視圖中的加權矩陣 | |
| L | 圖拉普拉斯矩陣 |
| V | 集簇矩陣 |
| 三個guidance matrix | |
| 核矩陣; 核的系數 | |
| 正則化參數 |
3.2 非負矩陣分解?Non-negative Matrix Factorization (NMF)
? ? ? ? ?非負矩陣分解問題旨在將原始矩陣分解成兩個矩陣和,其中W和H代表了隱藏空間。
? ? ? ? 在我們的問題里,W代表了區域之間的隱藏特征,H代表了數據視圖之間的隱藏特征
????????這些矩陣中的每一列代表對應區域和統計字段的k個屬性。
???????? 這些屬性之間的相互作用決定了區域和統計字段之間的統計值。
于是,基于NMF的缺失值補全模型可以被描述成如下的優化目標:
????????
?????????其中T是一個指示矩陣,當X(i,j)有觀測數值的時候,Y是1,否則Y是0
?????????是Frobenius 范數
?線性代數筆記:Frobenius 范數_UQI-LIUWJ的博客-CSDN博客
機器學習筆記:非負矩陣分解問題 NMF_UQI-LIUWJ的博客-CSDN博客
?????????是表示逐元素相乘的哈馬德積
? ? ? ??
3.3 多核K-means
?如圖3所示,原始數據X有d個數據視圖表示()
?令表示n個區域的樣本集合。xi表示了第i個區域的統計學特征
是將 x 映射到第 p 個再生希爾伯特核空間的 第 p 個視圖映射。 ?
?在這種情況下,每個樣本都是由一組特征映射定義的多個特征表示
?
此時包含了d個核對應的系數,這些系數將在學習的過程中進行優化
基于的定義,核函數可以被表示成
?
通過核函數,我們可以獲得整個核矩陣,基于核矩陣,MKKM(multiple kernel K-means)的目標函數可以寫成:
?
其中V是集簇矩陣,表示每個region在哪個集簇里面
?是全1的列矩陣
?是單位矩陣
l是簇的數量
4 提出的模型(SMV-NMF)
?
?4.1??Multi-view NMF 多視圖非負矩陣分解
? ? ? ? ?在這個問題中,我們想學習一個不同region的潛在的子空間(這個不隨p而改變,對于不同的視圖,W是一樣的),不同視圖的矩陣(一共有d個視圖,即d個H矩陣)
? ? ? ? 在這個情況下,Multi-view NMF的目標函數可以寫成
?
? ? ? ? ?這里Yp是第p維視圖的指示矩陣。當(第p個視圖,第i個區域的第j個屬性)有記錄值的時候,為1
優化目標的意義是,對于每一個視圖p,我都會有一個對應的各個點的屬性特征?(n是點的數量,是視圖p中屬性的數量)
? ? ? ? 對于所有視圖,我們學習一個普適性的W,這個W在不同視圖下看是一樣的。
????????就是這個視圖對應的“系數”矩陣
? ? ? ? 我們利用多視圖 NMF 方法來查不同視圖上各個region之間的潛在連接。
????????非負約束的優點之一是潛在特征的合理假設和結果的可解釋性。 此外,由于城市統計數據的本身特點,缺失值必須是非負的,因此W和H應該被約束為非負字段。
4.2?多視圖空間相似性指引
? ? ? ? ?像2.2節所說的那樣,基于多視圖矩陣分解的方法沒有利用空間相關性,可能會遇到數據不平衡問題?。
? ? ? ? 為了解決這個問題,我們對于第p個視圖提出了相似指引(similarity guidance)?
? ? ? ?為了提取空間相關數據的不同視圖之間的關聯,我們設計了一種通過空間多核學習捕獲區域相似性的方法,稱為 S-MKKM。 其基本思路是城市的發展逐漸形成不同的功能群,如教育區、商圈等,屬于同一群的區域之間會有很強的聯系。
????????S-MKKM 利用多核 k 均值 (MKKM) 聚類算法(3.3)結合圖拉普拉斯動力學策略(一種尋找空間結構相似性的有效平滑方法 )將區域聚類到不同的功能群。
? ? ? ? ?詳細地說,我們構建了一個圖拉普拉斯矩陣L=D-M。其中D是度矩陣,M是圖鄰接矩陣,它是由區域物理空間的拓撲關系確立的(當且僅當區域i核區域j相鄰的時候,)
? ? ? ? 在3.3中,我們有MKKM的目標函數為:
? ? ? ? ?在這里,引入圖拉普拉斯矩陣后,S-MKKM模型的目標函數是
?
?其中V是集簇矩陣,表示每個region在哪個集簇里面
α是正則化參數
?????????為了獲得完整的kernel,我們最初通過一種簡單的方法(例如 KNN 或 MF,mean-filling)為每個視圖估算缺失數據(不同初始化的效果在后文中會說明)。
???????? 因此,這個問題可以通過交替更新V(集簇矩陣)和β(核的系數)來解決[38]:
?????????S-MKKM的目的是發現有相似特點的區域,并構建引導矩陣
? ? ? ? 當有了集簇矩陣V之后,我們就可以構建了,構造過程如下:
? ? ? ? 1)對于不確定的條目,我們確定它對應的點是第c個集簇,那么我們就用相應的(也就是集簇中心點)的值來補全
? ? ? ? 2)如果集簇中心點的值也不確定,一種貪心的策略會被使用,那就是找最近的已觀測節點來進行補全
?
?????????以上圖為例,假如點1和點3是一類,點2和點4是一類。同時點2和點3是一個集簇。那么我們可以用集簇(點2、點3)對應位置有的值補全點1和點3缺失的值( 比如用x3,2填充x1,2、用x2,4填充x4,4、用x2,11填充x1,12)
? ? ? ? 如果中心位置沒有值,那么我們先看同一集簇內附近的點有沒有值,如果這一集簇內這個條目都沒有的話,就看附近的不同集簇的點的這個值了(這里是用x4,9填充x2,9)
4.3 自適應權重NMF
? ? ? ? 對于補全的點,我們希望加上他們與集簇中心點的距離信息
? ? ? ? 其中Dist表示?之間的歐幾里得距離
? ? ? ? Zp相當于是補全的點的一個“懲罰項”
? ? ? ? 自適應權重NMF的優化目標函數可以寫成:
?
? ? ? ? 綜合考慮NMF和這里的自適應權重NMF:
? ? ? ? 換句話說NMF可以看成是一個正則化項。?
,表示我們這里考慮的是之前沒有值,也就是需要補全的那些值
4.4? 單視圖空間相似性指引 S-KKM
S-MKKM旨在同時考慮多個視圖。然而,每個視圖子集也有它獨特的特征。不同區域在一個特定的視圖下的關聯,在補全問題中也是很重要的。
于是我們提出了單視圖空間相似性指引,以及其相應的自適應權重NMF。
對于某一個特定的視圖p,我們可以這么設計我們的單視圖空間相似性指引
可以看出來,除了多了下標p,其他的和4.2S-MKKM沒有什么區別
經過了這個,我們得到了我們單視圖空間相似性指引矩陣
相應的自適應NMF的目標函數為
4.5 KNN相似性指引
對于每個區域的每一個視圖,它的k近鄰的信息也會對這個區域的屬性有一定的增益作用?
于是,我們也建立了KNN的相似性指引,以及它的自適應權重NMF
4.6 綜合考慮各種自適應權重
?綜合考慮多視圖、單視圖和KNN的相似性執行對應的自適應權重矩陣,我們有:
于是,我們最終的補全矩陣為:
?原來有值的就是原值,原來沒值的就填上補全的值
4.7 之后兩個小的章節是時間復雜度和訓練過程,暫時略過
5 實驗部分
5.1實驗數據
我們找到了澳洲(ABS)和新西蘭(NZS)的8個城市數據集。
在ABS中,每一個城市的數據集有四個視圖(經濟、家庭、收入、人口),四個視圖分別有43、44、50、97個屬性
不同試圖的屬性值我們限制在[0,10],這樣我們就可以統一評估結果的正確與否。
5.2 Baseline
| sKNN | 使用空域上最近的k(在這里k取5)個鄰居的平均值(單視圖) |
| 一個基于MKKM的方法 我們先學習MKKM,使得它可以分類不同的集簇。然后將它的k個”鄰居“屬性的平均值進行補全 | |
| 和類似,不同的是,我們使用該集簇的平均值來進行補全 | |
| NMF | 使用非負矩陣分解 |
| IDW | 一個在很多的工作中被拿來進行比較的全圖空間學習 |
| UCF | 基于協同過濾的局部空間學習方法 |
| IDW+UCF | / |
| MVL-IV | 一種先進的基于矩陣協因子分解的多視圖學習方法,它學習同一個系數矩陣來連接多個視圖 |
| ST-MVL | 計算時空缺失數據的最新方法。由于時間信息缺失的問題,我們只使用它的空間部分。 |
| SMV-MF | 我們的模型去掉非負矩陣分解,換成矩陣分解 |
| 去除拉普拉斯矩陣限制 | |
| 去除KNN相似性指引 |
?5.3 衡量標準
?
5.4 實驗結果
?
?????????很明顯地發現,我們提出來的模型(及其變體),達到了最好的效果。
? ? ? ? MVL-IV相比于ST-MVL和MKKMIK來說,效果好很過,很為MVL-IV考慮了多視圖問題
? ? ? ? 相比于MVL-IL,本模型的優點在于它學習隱藏空間中點與點之間的相似度,而不是原始數據點與點的相似度。其次,本模型融入了先驗知識(自適應權重)來補全每一個丟失的信息。這些都對于空間信息補全有著很大的作用。
? ? ? ? 盡管ST-MVL在時空丟失信息補全的問題中有著很高的效果,但是對于本問題,當時間信息沒有的時候,僅僅依靠空間信息,ST-MVL并不能達到很好的效果
? ? ? ? ?同時,我們也發現,我們模型中,注入非負矩陣分解的非負限制、圖拉普拉斯矩陣的限制、KNN的限制等,有尤其作用所在。
信息丟失率和預測準確度之間的關系
?這兩個模型對于丟失率很敏感(個人感覺是,因為這兩個都完全沒有考慮空域的屬性,比如拉普拉斯矩陣,所以一旦丟失率高,對于整體的空間屬性模型就所知甚少了)
?5.5 模型的泛化性
?模型使用墨爾本和布里斯班的數據作為測試集,悉尼的數據作為驗證集,澳洲的其他數據作為訓練集,以測評模型的泛化性。
?
????????實驗表明,本模型具有很強的泛化能力,可以把構建好的模型從一個城市的數據集遷移到另一個城市。這是因為城市之間有很強的相似性和關聯性。(比如城市中不同功能的區域數量大致相同。這就導致了集簇的數量差不多)
5.6 不同view 的權重
?
可以看到,當missing rate小的時候,經濟(economy)占據了很高的優先級;當missing rate大的時候,幾個因素就需要綜合考慮了
個人推測是前面MKKM中?的那些β的占比
總結
以上是生活随笔為你收集整理的论文笔记:Missing Value Imputation for Multi-view UrbanStatistical Data via Spatial Correlation Learning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文巾解题455. 分发饼干
- 下一篇: NTU 课程 7454 (5) CNN进