基于样本的优化
點擊上方藍字關(guān)注我們
基于樣本的優(yōu)化
張智杰1,2,?孫曉明1,2,?張家琳1,2,?陳衛(wèi)3
1?中國科學院計算技術(shù)研究所,北京 100086
2?中國科學院大學,北京 100049
3?微軟亞洲研究院,北京 100080
?摘要:基于樣本的優(yōu)化研究的是如何通過用于學習目標函數(shù)的樣本數(shù)據(jù)直接優(yōu)化目標函數(shù)。首先介紹這一問題的數(shù)學模型——樣本優(yōu)化模型,以及這個模型下的不可近似性結(jié)果;然后介紹若干方法和樣本優(yōu)化模型的變種,以繞過這個模型下的不可近似性結(jié)果,使得優(yōu)化成為可能;接著著重介紹其中一個變種——結(jié)構(gòu)化樣本優(yōu)化模型,并詳細闡述該模型下的最大覆蓋問題和影響力最大化問題的優(yōu)化算法;最后總結(jié)全文,并展望這一問題的未來研究方向。
關(guān)鍵詞:基于樣本的優(yōu)化?;?數(shù)據(jù)驅(qū)動的優(yōu)化?;?結(jié)構(gòu)化樣本?;?最大覆蓋問題?;?影響力最大化問題
論文引用格式:
張智杰, 孫曉明, 張家琳, 等. 基于樣本的優(yōu)化[J]. 大數(shù)據(jù), 2021, 7(5): 100-110.
ZHANG Z J, SUN X M, ZHANG J L, et al. Optimization from samples[J]. Big Data Research, 2021, 7(5): 100-110.
1 引言
為了解決實際生活中遇到的統(tǒng)籌優(yōu)化問題,人們通常要建立一個問題模型,并確定模型的參數(shù)和優(yōu)化目標函數(shù),然后設(shè)計算法進行求解。然而,在大數(shù)據(jù)時代,許多應(yīng)用場景無法提供足夠的信息來確定模型參數(shù)和目標函數(shù)。人們只能通過觀察到的歷史樣本數(shù)據(jù)來獲取模型的信息,并進行優(yōu)化。在這類場景下,人們通常使用機器學習的方法進行處理:首先近似地學習一個替代的目標函數(shù),然后優(yōu)化這個替代的函數(shù)。盡管這個方法在實際應(yīng)用中獲得了巨大的成功,但是在很多實際問題中,這個方法缺乏理論上的保證。事實上,它可能存在如下兩個問題:① 即使針對原函數(shù)的優(yōu)化問題是可求解或者可近似求解的,但是針對替代函數(shù)的優(yōu)化問題也可能是不可近似的,這是因為替代函數(shù)可能丟失了一些原函數(shù)所具有的良好性質(zhì)(如次模性);② 即使替代函數(shù)是可近似的,而且從整體上看和原函數(shù)很接近,但是它的最優(yōu)解相較于原函數(shù)的最優(yōu)解也可能是一個很差的近似。這些擔憂自然地引出了如下問題:人們是否真的能從一系列樣本數(shù)據(jù)中求解目標函數(shù)的優(yōu)化問題?
1.1 樣本優(yōu)化模型
組合優(yōu)化問題通常具有如下形式:,其中,目標函數(shù)是一個定義在集合N的冪集合2N上的集合函數(shù),約束。傳統(tǒng)上,人們假定存在一個神諭(黑箱算法)Of來訪問目標函數(shù)f。將給定集合S?N 作為輸入,Of會返回函數(shù)值f(S)。人們使用查詢復雜度(即算法查詢Of的次數(shù))來衡量算法的效率。這樣的計算模型被稱為查詢模型。
為了回答基于樣本的組合優(yōu)化是否可能的問題,Balkanski E等人定義了另一種計算模型——樣本優(yōu)化(optimization from samples,OPS)模型。
定義1(OPS模型) 給定參數(shù)α∈(0,1],如果存在算法A(不一定是多項式時間的),給定參數(shù)δ∈(0,1)并將樣本集作為輸入,其中,Si獨立同分布于,算法A返回,并滿足
則稱函數(shù)類在分布下對于約束是α-可優(yōu)化的。其中,α被稱為近似比,表示算法的解與最優(yōu)解的比值。算法使用的樣本數(shù)t被稱為算法的采樣復雜度。顯然,樣本分布會顯著影響函數(shù)類在OPS模型下的可優(yōu)化性。例如,當總是返回空集作為樣本時,不可能對問題得到任何有意義的近似比。因此,人們轉(zhuǎn)而希望在某些“合理的”樣本分布下,優(yōu)化是可能的。此外,對于在查詢模型下具有常數(shù)近似比的問題,人們通常希望它在OPS模型下也具有常數(shù)近似比。對于這類問題,如果存在分布,當將給定多項式數(shù)量的獨立同分布于的樣本作為輸入時,問題存在常數(shù)近似算法,則稱它們(在OPS模型下)是可優(yōu)化的;反之,則稱它們是不可優(yōu)化的
樣本優(yōu)化模型在目標函數(shù)可優(yōu)化且可學習的情況下最具研究價值。Balcan M F等人首先定義了集合函數(shù)的PMAC (probably mostly approximately correct learnability)-可學習性。
定義2(PMAC-可學習性) 對于函數(shù)類F 和參數(shù)α∈(0,1),如果給定參數(shù)并將樣本集作為輸入,其 中,Si獨 立同分布于 ,,存在輸出,并滿足
如果在每個分布上都是α-PMAC-可學習的,則稱在分布上是α-PMAC-可學習的。
由定義2可知,函數(shù)類是α-PMAC可學習的意味著在大多數(shù)輸入集合上(相對于分布而言),存在某種算法學習到的函數(shù)值與真實的函數(shù)值很接近。并且,人們通常要求這對于任意的分布均成立。而函數(shù)可優(yōu)化性的定義只要求存在分布使之成立即可。
最后,覆蓋函數(shù)和影響力函數(shù)是這一領(lǐng)域的重要研究對象,下面介紹它們的定義。給定二部圖G=(L,R,E),其中,L和R分別表示左右兩邊的點集,E表示點之間的邊集。覆蓋函數(shù)定義為集合S?L的鄰居的個數(shù),即。而最大覆蓋問題要求選取最多k個左邊的節(jié)點,并最大化它們覆蓋的鄰居數(shù)。換言之,它要求在基數(shù)約束下最大化一個覆蓋函數(shù),即。
影響力函數(shù)是覆蓋函數(shù)在一般有向圖上的推廣。它被定義在社交網(wǎng)絡(luò)(有向圖)上,其中,V表示點集,E表示邊集,P表示概率向量,每條邊(u,v)∈E具有概率puv∈[0,1]。每個節(jié)點存在激活和未激活兩種狀態(tài)。給定t=0的初始激活節(jié)點S0(被稱為種子集合),其他節(jié)點以如下方式被激活:在時刻t=1,2,3,…,首先令;接著,對于每個節(jié)點,令表示v的入鄰居,每個節(jié)點會以概率puv獨立地激活節(jié)點v。v一旦被激活,就會被加入St中。節(jié)點被激活的過程是不可逆的,因此有S0?S1?S2。一旦沒有新的節(jié)點被激活,此過程終止。顯然,這一過程最多進行n-1步。因此,可以使用來表示激活節(jié)點的隨機序列。上述傳播過程被稱為獨立級聯(lián)傳播模型。給定S0,定義為最終的激活節(jié)點。影響力函數(shù)被定義為,即種子集合S激活的節(jié)點數(shù)的期望。影響力最大化問題要求選取一個大小不超過k的種子集合,并最大化它激活的期望節(jié)點數(shù),即。
1.2 不可近似性結(jié)果
Balkanski E等人在OPS模型下研究了最大覆蓋問題的近似性,即在基數(shù)約束下最大化一個覆蓋函數(shù)。此前,覆蓋函數(shù)被證明是明是可學習的。此外,在查詢模型下,最大覆蓋問題是(1-e-1)近似的。因此,人們相信若采取“先學習后優(yōu)化”的策略,最大覆蓋問題在OPS模型下是可優(yōu)化的。然而,令人驚訝的是, Balkanski E等人證明了在OPS模型下,最大覆蓋問題實際上是不存在常數(shù)近似的。換言之,盡管覆蓋函數(shù)是可學習的,卻不是可優(yōu)化的。這使基于樣本的組合優(yōu)化問題得到一個否定性的回答。Balkanski E等人的證明中構(gòu)造了一類PMAC-可學習的覆蓋函數(shù),這類函數(shù)在絕大多數(shù)輸入集合上能近似得很好,然而,這些近似良好的集合恰恰不是問題的最優(yōu)解集,并且最優(yōu)解與這些集合的函數(shù)值有較大差別。這解釋了樣本優(yōu)化模型下不可近似性結(jié)果的由來。從概念上說,基于“先學習后優(yōu)化”的思路,原問題通常可以被拆解為采樣模型下的學習問題與查詢模型下的優(yōu)化問題。盡管這兩個問題都是容易解決的,將它們結(jié)合起來卻不能解決樣本優(yōu)化問題。這是因為這兩個問題的子目標沒有完全對應(yīng),學習任務(wù)的子目標只要求在絕大多數(shù)集合上學得好,但這些學得好的集合恰恰是在優(yōu)化意義上比較差的集合,因此對于原函數(shù)的優(yōu)化沒有幫助。
OPS模型十分容易被推廣到其他優(yōu)化問題上,而類似的不可近似性結(jié)果也出現(xiàn)在其他多個優(yōu)化問題中。
眾所周知,無約束次模函數(shù)(對于?S?T?N,u?T ,u?T,如 果 有,則稱函數(shù)是次模的。)最小化問題可以在多項式時間內(nèi)精確求解。此外,當假定函數(shù)的取值在[0,1]之間時,可以證明以均等的概率返回空集或者全集,就能夠得到一個1/2的加性近似。針對這一問題,Balkanski E等人定義了如下OPS模型。
定義3 給定參數(shù),如果存在算法A,給定參數(shù)δ∈(0,1)并將樣本集作為輸入,其中,Si獨立同分布于,,算法A返回S?N,并滿足
則稱函數(shù)類在分布下是可優(yōu)化的。
Balkanski E等人證明了,在OPS模型下存在一類PAC-可學習的取值在[0,1]之間的次模函數(shù),對于任意分布,將給定多項式數(shù)量的獨立同分布于的樣本作為輸入,這類函數(shù)不存在的加性近似。
上述不可近似性結(jié)果并不局限于組合優(yōu)化中。眾所周知,凸函數(shù)的最小化問題也是多項式時間可解的。針對這一問題, Balkanski E等人定義了如下OPS模型。
定義4 給定參數(shù),如果存在算法A,給定參數(shù)δ∈(0,1)并將樣本集作為輸入,其中,xi獨立同分布于,,算法A返回,并滿足
則稱函數(shù)類在分布下是可優(yōu)化的。
Balkanski E等人證明了,在OPS模型下,存在一類PAC-可學習的凸函數(shù)族,對于任意分布,將給定多項式數(shù)量的獨立同分布于的樣本作為輸入,這類函數(shù)不存在(1/2-O(1))的加?S性T?近似。這個界是緊的(相當于最優(yōu)的),這是因為可以證明返回x=(1/2,1/2,…,1/2)就能達到1/2的加性近似。
上述幾個結(jié)果表明,許多在查詢模型下可以優(yōu)化的問題在采樣模型下卻是不可優(yōu)化的,盡管從樣本中可以學習到這些問題的目標函數(shù)。這說明了函數(shù)是可學習的并不意味著它是可優(yōu)化的。
1.3 算法結(jié)果
后續(xù)有一系列工作嘗試繞開OPS模型下的不可近似性結(jié)果。這樣的嘗試大致可以分為3類。
第一類方法假設(shè)目標函數(shù)f擁有額外的性質(zhì)。例如,Balkanski E等人考慮了f是曲率為c∈[0,1]的單調(diào)(對于?S?T,如果f(S)≤f(T), 則稱函數(shù)單調(diào)的。)次模函數(shù)的情況。曲率是衡量單調(diào)次模函數(shù)線性程度的一個度量。曲率越小,函數(shù)越接近線性。例如,線性函數(shù)和覆蓋函數(shù)都滿足單調(diào)性和次模性,但是線性函數(shù)的曲率為0,而覆蓋函數(shù)的曲率為1。Balkanski E等人證明了,在OPS模型下,當樣本分布為約束上的均勻分布時,問題存在(1-c)/(1+c-c2)-近似,并且這個近似比是最優(yōu)的。線性函數(shù)的曲率為0意味著線性函數(shù)即使在OPS模型下也是可以精確求解的。而覆蓋函數(shù)的曲率為1,這個結(jié)果和OPS模型下最大覆蓋問題的不可近似性并不矛盾。
影響力最大化問題是社交網(wǎng)絡(luò)研究中的核心問題之一。獨立級聯(lián)傳播模型下的影響力函數(shù)是單調(diào)次模函數(shù)的一個重要實例,而覆蓋函數(shù)又是此影響力函數(shù)的特例。因此,影響力函數(shù)在OPS模型下也是不可優(yōu)化的。由于影響力函數(shù)被定義在社交網(wǎng)絡(luò)上,為了繞開OPS模型下的不可近似性結(jié)果,Balkanski E等人考慮了帶有社區(qū)結(jié)構(gòu)的社交網(wǎng)絡(luò)上的影響力函數(shù)。更具體地說,他們假設(shè)G是通過隨機區(qū)塊模型(stochastic block model)生成的,因此G可被高概率地劃分為若干社區(qū),且社區(qū)內(nèi)部的邊比較稠密,社區(qū)之間的邊比較稀疏。他們證明了,對于這樣生成的社交網(wǎng)絡(luò)和約束上的均勻分布,影響力最大化問題存在常數(shù)近似算法。
可以發(fā)現(xiàn),上述方法不改變OPS模型本身,但是通常要求目標函數(shù)具有良好的性質(zhì),因此其適用范圍有所限制。
第二類方法弱化了優(yōu)化目標。Rosenfeld N等人提出了OPS模型的一個變種版本,稱之為DOPS(distributional optimization from samples)模型。
定義5(DOPS模型) 給定參數(shù)α∈[0,1],如果存在算法A,對于任意分布,給定獨立同分布于的樣本集,參數(shù)并將另一批樣本集作為輸入,其中,Si獨立同分布于,,算法A返回,并滿足
則稱函數(shù)類是α-可優(yōu)化的。
可以發(fā)現(xiàn),在DOPS模型中,不存在約束,優(yōu)化目標也不是尋找全局最優(yōu)解。模型的優(yōu)化目標是在函數(shù)值未知的大小為m的樣本集中尋找函數(shù)值最大的樣本。因此,優(yōu)化目標取決于樣本分布。算法可以使用另一批函數(shù)值已知的樣本集來收集函數(shù)f的信息,并最終達成上述目標。需要注意的是,在OPS模型中,要求樣本數(shù)t關(guān)于基集合的大小是多項式的, 表示問題規(guī)模。因此,作為類比,在DOPS模型中,要求t關(guān)于m是多項式的。
Rosenfeld N等人證明了一個集合函數(shù)類在DOPS模型下是α-可優(yōu)化的,當且僅當它是α-PMAC-可學習的。這種解決方式恰恰利用了之前“可學習但不可優(yōu)化”的矛盾之處。函數(shù)可學習說明替代函數(shù)在絕大多數(shù)地方和目標函數(shù)很接近,而這里的絕大多數(shù)是相對于分布而言的。如果分布較偏離函數(shù)最優(yōu)解,則會導致即使替代函數(shù)整體上接近目標函數(shù),在最優(yōu)解附近可能也會偏離較遠,進而使得全局優(yōu)化目標很難達成。與之相對地,只針對函數(shù)值未知的樣本定義的優(yōu)化目標會更容易達成。但是這個解決方式最終達成的優(yōu)化目標依賴于樣本數(shù)據(jù)的分布,并不符合通常對集合函數(shù)的優(yōu)化問題的要求。人們?nèi)匀幌M鄬侠淼姆植寄転樵繕撕瘮?shù)的全局最優(yōu)解提供一定的理論保證。
第三類方法既不假定目標函數(shù)滿足額外的性質(zhì),也不弱化優(yōu)化目標,而是假設(shè)樣本攜帶額外的結(jié)構(gòu)信息,這樣的樣本被稱為結(jié)構(gòu)化樣本。Chen W等人首先研究了這種方法,針對覆蓋函數(shù)提出了OPS模型的一個變種版本——結(jié)構(gòu)化樣本優(yōu)化(optimization from structured samples,OPSS)模型。
定義6(OPSS模型) 給定參數(shù)α∈[0,1],如果存在算法A,給定參數(shù)δ∈(0,1)并將樣本集作為輸入,其中,Si獨立同分布于,,為Si在二部圖G上的鄰居,算法A返回,并滿足
則稱覆蓋函數(shù)類在分布下對于約束是α-可優(yōu)化的。
在OPSS模型中,算法不僅知道Si覆蓋的鄰居數(shù),還知道它具體覆蓋了哪些節(jié)點,因此掌握了關(guān)于函數(shù)結(jié)構(gòu)的部分信息。Chen W等人證明了,當分布滿足可行性、多項式大小的采樣概率和負相關(guān)性這3個條件時,最大覆蓋問題在OPSS模型下存在常數(shù)近似。因此,通過假設(shè)樣本是結(jié)構(gòu)化的,所得結(jié)果繞過了OPS模型下的不可近似性結(jié)果。
這一結(jié)果后來被推廣到獨立級聯(lián)模型下的影響力函數(shù)最大化問題。在OPSS模型下,算法的輸入是結(jié)構(gòu)化樣本,其中獨立同分布于,給定Si,0,的產(chǎn)生遵循獨立級聯(lián)模型的傳播過程。Chen W等人證明了當分布是乘積分布時,影響力最大化問題存在常數(shù)近似。
可以發(fā)現(xiàn),由于不同目標函數(shù)的結(jié)構(gòu)各不相同,因此難以定義通用的OPSS模型,需要基于各個函數(shù)的結(jié)構(gòu)特點給出具有針對性的定義。本文將著重介紹OPSS模型下的算法結(jié)果。
2 OPSS模型
2.1 最大覆蓋問題
Chen W等人為OPSS模型下的最大覆蓋問題設(shè)計了如下算法。
算法1:最大覆蓋問題的OPSS算法
輸入:樣本和約束
令T1=S1
構(gòu)造一個替代的二部圖,使得對于每個節(jié)點u∈L,
令,其中A表示標準最大覆蓋問題的k-近似算法
以等概率返回T1和T2中的一個
算法1以相等的概率返回兩個可行解T1和T2中的一個,其中T1=S1就是第一個樣本,而T2是通過在二部圖上運行標準最大覆蓋問題的k-近似算法得到的。二部圖是原圖G的一個近似,它是由樣本構(gòu)造出來的。對于節(jié)點u∈L,定義它在上的鄰居為,用來近似它的真實鄰居。
直觀的算法設(shè)計如下:如果某個單元素集{u}從分布中被采樣出來,那么算法能完全知曉的信息。然而,從中采樣出來的可能是一個大集S,對于節(jié)點u∈S, 的信息被隱藏在中。幸運的是,如果節(jié)點同時屬于兩個樣本S1、S2,那么有?。因此,算法1使用包含節(jié)點的樣本的鄰居的交集作為節(jié)點u的真實鄰居的估計,以便盡可能地揭露u的真實鄰居的信息。
上述構(gòu)造表明,只可能高估,即。然而, 仍然可能不是的一個好的估計,即可能太大。一個極端的例子如下:假設(shè)對于某個節(jié)點v∈L,?,那么,總是包含中的所有元素,因此可能比大得多。由此可見,T2在原圖G上可能不是一個好的解。此外,觀察上述例子可知,中的元素之所以會出現(xiàn),是因為它們的鄰居以高概率出現(xiàn)在樣本S中。這意味著樣本T1=S1能夠以高概率覆蓋學習誤差。因此,是原圖G上一個好的近似解。為了保證可行性,算法隨機選取其中的一個近似解,在期望的意義下,仍然能夠得到一個好的近似解。
為了對算法1進行嚴格的理論分析,需要假定算法在如下假設(shè)下運行。
假設(shè)1 假設(shè)2L上的分布滿足如下3個條件。
● 可行性。樣本總是可行的,即。
● 多項式大小的采樣概率。存在常數(shù)c>0,對于每個節(jié)點u∈L,。
● 負相關(guān)性。對于,隨機變量是負相關(guān)的,即,? 。
上述3個條件都是非常自然的。特別地,第二個條件意味著L中的所有元素都有足夠的概率被采樣到。第三個條件直觀上意味著u出現(xiàn)在樣本中這一事件的發(fā)生會減少其他節(jié)點出現(xiàn)在樣本中的概率。顯然,這個條件降低了許多個節(jié)點同時出現(xiàn)在樣本中的概率,有助于算法1揭示特定節(jié)點的鄰居的信息。一些典型的分布均滿足假設(shè)1,例如上的均勻分布以及上的均勻分布。基于假設(shè)1,可以證明:
定理1 對于任意δ∈(0,1),給定任意標準最大覆蓋問題的k-近似算法,令表示算法1返回的解,OPT表示原圖G上的最優(yōu)解。如果分布滿足假設(shè)1且樣本數(shù),其中,c是假設(shè)1中的參數(shù),那么
如果只要求常數(shù)近似比,則假設(shè)1中“可行性”的條件可以被放寬為。Chen W等人還證明了如下結(jié)論。
● 當樣本分布為均勻分布或時,存在算法能夠達到近似比。
● 存在滿足假設(shè)1的某個分布,在這一分布下,不存在近似算法。這意味著當允許調(diào)用暴力搜索算法(k=1)時,算法1是OPSS模型下的最優(yōu)算法。
● 移除假設(shè)1中的任意一個條件,存在滿足剩下兩個條件的某個分布,在這一分布下不存在常數(shù)近似算法。這意味著為了得到OPSS模型下最大覆蓋問題的常數(shù)近似算法,假設(shè)1的3個條件都是必須滿足的。
2.2 影響力最大化問題
Chen W等人采取如下框架求解OPSS模型下的影響力最大化問題:首先學習邊的概率,然后在學習到的社交網(wǎng)絡(luò)上求解影響力最大化問題。其中,學習邊概率的任務(wù)被稱為網(wǎng)絡(luò)推斷(network inference)問題,它的嚴格定義如下:給定結(jié)構(gòu)化樣本,其中獨立同分布于,給定Si,0, 的產(chǎn)生遵循獨立級聯(lián)模型的傳播過程,,要求計算一個概率向量,使得
為了求解上述問題,Chen W等人假設(shè)產(chǎn)生種子的分布是乘積分布,即對于樣本,事件u∈S之間是相互獨立的。
在是乘積分布的假設(shè)下,Chen W等人提出了一個高效求解網(wǎng)絡(luò)推斷問題的方案。為了描述這一方案,需要定義一些符號。記是激活節(jié)點的隨機序列。對于節(jié)點u,定義,表示u被選為種子的概率。對于節(jié)點v∈V,定義,表示v在一個時間步之內(nèi)被激活的概率。節(jié)點v既有可能因為被選為種子而激活,也有可能被種子激活。因此, ap(v)定義中的隨機性既來自種子分布,也來自圖G上第一個時間步之內(nèi)的傳播過程。此外,定義,表示節(jié)點u不是種子時相應(yīng)的條件概率。Chen W等人的關(guān)鍵性觀察如下。
引理1 給定任意u,v∈V且u≠v,
引理1的證明思路如下:在一個時間步之內(nèi),節(jié)點v或者被節(jié)點u之外的節(jié)點激活,或者被節(jié)點u激活。由于D是乘積分布,可以得到
重新排列式(10)便可以得到引理1中的結(jié)果。
有了引理1后,就可以通過估計qu、ap(v)和來估計puv。
算法2:網(wǎng)絡(luò)推斷算法
輸入:樣本
對于所有u,v∈V,分別估計
令
返回
在算法2中,分別表示qu、ap(v)和 的估計,它們的計算方法如下:令表示u是種子的樣本的數(shù)量,表示v在一步之內(nèi)被激活的樣本的數(shù)量,?表示u不是種子且v在一步之內(nèi)被激活的樣本的數(shù)量,那么且。為了保證參數(shù)估計的準確性,算法2需要在如下假設(shè)下運行。
假設(shè)2 存在參數(shù)α∈(0,1]和γ∈(0,1/2],使得
● 對于所有;
● 對于所有。
在假設(shè)2下,可以證明如下定理。
定理2 在假設(shè)2下,令表示算法2返回的邊的概率,表示真實的邊概率。給定,如果樣本的數(shù)量,那么
接著介紹如何利用網(wǎng)絡(luò)推斷算法解決OPSS模型下的影響力最大化問題。Narasimhan H等人證明了如下引理。
引理2 給定S?V和任意兩個概率向量P、并滿足,用σp表示定義在圖上的影響力函數(shù),那么
可以發(fā)現(xiàn),使用網(wǎng)絡(luò)推斷算法估計邊概率,使得誤差不大于,結(jié)合引理2,就可以證明在學習到的社交網(wǎng)絡(luò)上運行任何k-近似的影響力最大化算法,可以得到原圖上的一個近似解。然而,這樣的算法繼承了網(wǎng)絡(luò)推斷算法的假設(shè),因此對網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)有所要求(注意到ap(v)≤1-α是一個關(guān)于分布和網(wǎng)絡(luò)參數(shù)的條件),這意味著對影響力函數(shù)假設(shè)了額外的性質(zhì),有悖于定義OPSS模型的初衷。
為了得到一個在任何社交網(wǎng)絡(luò)上均能運行的OPSS算法,Chen W等人采取了處理最大覆蓋問題時所用的技術(shù)。具體地說,算法首先對每個節(jié)點v∈V估計ap(v)的值,并比較它們與給定閾值的大小。如果ap(v)大于給定閾值,那就意味著節(jié)點v以高概率在一步之內(nèi)被激活,此時,算法將它的所有入邊的概率設(shè)置為1;如果ap(v)小于此閾值,那么假設(shè)2的條件被滿足,可以使用網(wǎng)絡(luò)推斷算法估計v的所有入邊的概率。經(jīng)過上述步驟可以得到一張新圖。算法在這張新圖上運行k-近似的影響力最大化算法,并得到一個解。算法使用第一個樣本作為另一個解,最終以等概率返回兩個解中的一個。
算法3:影響力最大化問題的OPSS算法
輸入:樣本和約束
for 每個v∈V do
估計
if
對于所有u∈V,
else
對于所有u,v∈V,分別估計
end if
end for
令
以等概率返回T1和T2中的一個
上述算法與最大覆蓋問題的OPSS算法(算法1)的設(shè)計思路是一致的。ap(v)接近1意味著節(jié)點v以高概率在一步之內(nèi)被激活,因此網(wǎng)絡(luò)推斷算法的假設(shè)不被滿足,算法無法學習到節(jié)點v的入邊概率。幸運的是,這同時意味著任意一個樣本都能夠以高概率激活節(jié)點v。因此算法無須學習節(jié)點v的入邊概率,而是直接把它們設(shè)置為1。這樣的設(shè)置幾乎不改變樣本激活節(jié)點v的概率。
上述設(shè)計使得算法能夠處理任意ap(v),從而移除了假設(shè)2中關(guān)于ap(v)的條件。而作為代價,算法需要假設(shè)樣本的期望大小不超過k/2,從而保證采樣出來的樣本高概率是可行的。因此,算法需要在下面的假設(shè)下運行。
假設(shè)3 存在參數(shù)γ∈(0,1/2],使得
● 對于
● 對于所有u∈V,。
顯然,假設(shè)3的兩個條件都是針對樣本分布的,不針對社交網(wǎng)絡(luò)。因此,算法3在任何社交網(wǎng)絡(luò)都可以成功運行。可以證明,算法3是一個常數(shù)近似算法。
定理3 對于任意,給定任意標準影響力最大化問題的k-近似算法,令表示算法3返回的解表示原圖G上的最優(yōu)解。如果分布滿足假設(shè)3且樣本數(shù),那么
? ? ? ? 最后,若把假設(shè)3中的第一個條件改為“存在常數(shù)c>0,使得,仍然能夠通過修改算法得到一個常數(shù)近似比。如果,那么可以修改算法得到一個近似。
3 未來研究方向
樣本優(yōu)化仍然有許多可以進一步研究的方向。
● 針對OPSS模型下的最大覆蓋問題和影響力最大化問題,降低現(xiàn)有算法的查詢復雜度。此外,目前影響力最大化的OPSS算法假設(shè)樣本分布是乘積分布。如何突破這樣的獨立采樣假設(shè)是一個十分重要的開放問題,一種可能的方法是將文中的方法與極大似然估計方法結(jié)合。
● 對更多的目標函數(shù)定義適當?shù)慕Y(jié)構(gòu)化樣本,并研究它們在OPSS模型下的近似性。一個直接的例子是線性閾值模型下的影響力最大化函數(shù)(筆者已經(jīng)得到了這方面的初步結(jié)果)。可以發(fā)現(xiàn),OPSS模型是一個表達能力豐富、能夠挖掘函數(shù)內(nèi)在結(jié)構(gòu)性質(zhì)的模型。因此,在OPSS模型下研究各類優(yōu)化問題是一個十分有潛力的研究方向。
● 研究更多的方法以繞開標準OPS模型下的不可近似性結(jié)果。更多這樣的研究一方面有助于人們應(yīng)對不同的應(yīng)用場景,另一方面有助于人們理解樣本數(shù)據(jù)與函數(shù)可優(yōu)化性的內(nèi)在聯(lián)系。
● 研究從樣本中優(yōu)化凸函數(shù)的可能性。目前所有繞開OPS模型不可近似性結(jié)果的方法都是針對集合函數(shù)而言的。對于實函數(shù),尤其是具有良好優(yōu)化性質(zhì)的凸函數(shù),尚沒有這方面的研究。考慮到凸函數(shù)在連續(xù)優(yōu)化中的重要地位,對它的進一步研究是十分必要的。
4 結(jié)束語
本文總結(jié)了OPS模型及其變種模型下的不可近似性結(jié)果和算法成果,并展望了相關(guān)的未來研究方向。OPS模型是數(shù)據(jù)驅(qū)動的優(yōu)化的重要研究方法之一,值得進行更加深入的研究。
作者簡介
張智杰(1995-),男,中國科學院計算技術(shù)研究所博士生,主要研究方向為次模優(yōu)化、公平分配等。
孫曉明(1978-),男,中國科學院計算技術(shù)研究所研究員,主要研究方向為量子計算、算法復雜性、社會網(wǎng)絡(luò)近似算法、通信復雜性、判定樹復雜性、組合數(shù)學等。
張家琳(1983-),女,中國科學院計算技術(shù)研究所研究員,主要研究方向為理論計算機科學、量子計算、近似算法、在線算法、算法博弈論。
陳衛(wèi)(1968-),男,博士,微軟亞洲研究院高級研究員,中國科學院計算技術(shù)研究所客座研究員,中國計算機學會大數(shù)據(jù)專家委員會和理論計算機科學專業(yè)委員會委員,IEEEFellow,《大數(shù)據(jù)》期刊編委。主要研究方向為在線學習和優(yōu)化、社交和信息網(wǎng)絡(luò)、網(wǎng)絡(luò)博奕論和經(jīng)濟學、分布式計算、容錯等。
聯(lián)系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉(zhuǎn)載、合作:010-81055537
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學會大數(shù)據(jù)專家委員會學術(shù)指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年、2019年國家哲學社會科學文獻中心學術(shù)期刊數(shù)據(jù)庫“綜合性人文社會科學”學科最受歡迎期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結(jié)
- 上一篇: 实验八 分析一个奇怪的程序
- 下一篇: jcxz指令