在线社交媒体信息冗余现象建模与实证研究
在線社交媒體信息冗余現象建模與實證研究
秦爍,呂欣,孟凡輝,胡延慶
國防科技大學系統工程學院,湖南 長沙 410073;
中南大學商學院,湖南 長沙 410083;
卡羅林斯卡研究所公共衛生科學系,瑞典 斯德哥爾摩 17177;
中山大學數據科學與計算機學院,廣東 廣州 510006
摘要:為深入了解社交媒體中的信息冗余現象,定義了一種以個體好友信息發布的重復情況度量信息冗余程度的指標。推導個體在傳播過程中出現冗余現象的概率,分析了信息傳播率、網絡密度、集群系數對信息冗余的影響;通過新浪微博的實際數據觀察了冗余信息的擴散特點,并從營銷的角度探討了信息冗余在廣告推廣和產品營銷方面的意義。研究結果為進一步了解在線社交媒體的信息擴散特征提供了新的視角。
關鍵詞:?社交網絡 ; 在線社交媒體 ; 信息傳播 ; 信息冗余
論文引用格式:
秦爍, 呂欣, 孟凡輝, 胡延慶. 在線社交媒體信息冗余現象建模與實證研究. 大數據[J], 2018, 4(5): 50-61
QIN S, LU X, MENG F H, HU Y Q. Modeling and empirical research of information redundancy on online social media. Big Data Research[J], 2018, 4(5): 50-61
1 引言
在線社交媒體是一類獲取信息的重要渠道,更是一種新的信息傳播方式。Facebook、Twitter、新浪微博、微信等作為一類基于朋友的關系型社交平臺,通過整合用戶的社交圈、生活圈、工作圈,滿足用戶在信息獲取、交流溝通、娛樂消遣等各方面的需求。但隨著用戶之間信息交互頻繁,信息量日益增多,信息冗余現象也成為在線社交媒體發展過程中一個不可忽視的問題。當信息量超出人們的吸收能力時,就會使人們感到“數據窒息(datacide)”。直觀上,當人們接收到過多重復信息或大量廣告推送時,會影響用戶獲取信息的效率和體驗感。對信息自身而言,信息冗余過于嚴重會導致信息傳播效率低,信息喪失原有價值。除此之外,社交網絡平臺的活躍度及未來發展趨勢也都與信息冗余問題息息相關。
Jin X等人在如何維持社交平臺活躍度問題上,從網絡增長模式和節點連接類型的角度研究了網絡活躍性演化的機制。其實驗結果也在一定程度上還原了一些真實社交網絡平臺的發展情況。人人網在早期頂著“中國Facebook”的光環,比它模仿的對象Facebook發展得更蒸蒸日上、充滿朝氣,最終,作為當時國內最大的社交平臺和承載無數年輕人回憶的互聯網產品卻走向低谷。人人網除了在產品定位轉型以及平臺運營等方面存在問題之外,更重要的是人人網中總是分享一些“老梗”、過時或“老掉牙”的消息,原創力差,輸出少,用戶漸漸失去新鮮感和興趣,從而淡出人人網,平臺也因此逐漸走向衰落。再如Reuters機構通過對1300位企業經理人所做的調查結果顯示:信息過載會降低工作滿意度,甚至工作中的重要的決策也會因信息過載而被延遲,并希望能夠通過技術手段解決信息過載問題。
除此之外,雖然信息冗余會造成一定的負面影響,但一定量的冗余在廣告推廣或產品營銷方面卻具有一定的意義。社交媒體的快速發展成為一股不可忽視的力量,為商業界帶來了巨大的變革,很多企業都將在線社交媒體作為一種新的營銷渠道,并制定符合新媒體特點的營銷策略。在線社交媒體的廣泛普及讓營銷者逐步開始淡化營銷信息主要傳播者的角色,轉而以口碑為載體,激勵用戶進行信息傳播。“口碑效應”的本質其實是社會學和心理學中提到的“從眾行為”,指人們會很大程度地受到周圍大多數人的影響。已有研究表明,用戶之間的相互推薦會影響到用戶的喜愛和偏好,從而促進產生購買和消費行為。因此,若廣告營銷類信息在社交媒體中得到大范圍的傳播和擴散,那必定會為相應產品帶來很好的宣傳和銷量。
目前,復雜網絡理論已比較成熟,將復雜網絡理論用于社交網絡分析的方法已有一定的基礎和先例。如關于在線社交平臺傳播模型的構建、信息傳播特性等的研究也都不在少數。Zhang Z K等人對近年來有關信息傳播的研究進行了回顧,對不同理論和方法進行了統一,比較和評估不同模型與算法之間的性能差異,強調有關信息傳播的研究將在各種領域都具有很強的科學深度。
但是,目前從網絡和節點特性、傳播機制以及廣告推廣或產品營銷的角度出發,探究信息冗余問題的相關研究屈指可數。因此,運用復雜網絡理論分析社交網絡,從網絡和節點特性、信息傳播機制和營銷的角度探討冗余問題,不僅為進一步了解信息傳播特性提供了新的視角,在對信息獲取、管理、優化等方面也具有一定的理論意義和實踐價值。
2 問題描述
在大部分社交平臺(如Facebook、Twitter、Instagram、BBM、LINE等)上,信息冗余常常表現為新聞或熱門頭條的重復轉發及推送,信息重復度高,零碎性強。刷屏現象就是信息冗余的典型表現。
現實社交平臺中,熱門信息常常以社會性新聞或娛樂新聞為主,如2017年11月12日,北京市“紅黃藍幼兒園”的“虐童事件”在各大社交平臺上相繼出現刷屏現象,并引起強烈的社會反響。僅僅3h內,新浪微博中某用戶的30條推送中就有19條與該新聞相關。
基于以上現象,將信息傳播過程中的節點類型分為兩類:覆蓋節點,即在該節點周圍的鄰居節點中,有一人或一人以上發布同一信息;冗余節點,即在該節點周圍的鄰居節點中,有兩人或兩人以上發布同一信息。并以網絡中冗余節點所占比例作為度量網絡信息冗余度的指標。若將社交網絡問題提煉成由節點和邊構成的社交關系圖上的問題,那么用戶就是節點,由一條邊相連的兩個節點具有“好友關系”,每個節點對于某條信息在某一時刻的狀態只表現為“發布”或“未發布”。將朋友圈轉換為網絡關系拓撲,如圖1所示。
圖1?“朋友圈”網絡關系拓撲
3 信息冗余度模型
3.1 信息傳播模型
為了深入研究社交媒體中的信息冗余現象,在社交平臺用戶關系網絡中建立SI(susceptible-infected)信息傳播模型,并根據實際信息的傳播特點對傳播過程加以限制。將用戶對信息的“發布”狀態設置為1,“未發布”狀態設置為0。將關系網絡中的所有節點狀態分為兩類:S(su sceptible)為未發布信息的個體,I (infected)為已經發布信息的個體。其中,S在接觸到傳播者I后,會以一定概率α (傳播率)變為I,即該節點將分享信息到自己的朋友圈,此時呈現對該信息的狀態為1。但是任何信息的熱度都會隨著時間以及傳播而逐漸下降,因此,在傳播模型中,每個節點在受到鄰居節點發布信息的影響后,會做出“發布”或者“不發布”的決定,該決定只能產生一次,在初次決定后,節點的狀態在之后的傳播中不再受影響,也不再改變。
下面對冗余指標中的幾個元素進行定義。N為網絡規模,aij為社交網絡鄰接矩陣中的元素,若aij=1,則表明頂點i與j互為鄰居節點,否則相反;k(i)表示任意節點的狀態,ξ(i)表示任意節點周圍是否出現信息冗余現象,可得到:
?(1)
(2)
網絡信息覆蓋率exp為覆蓋節點所占的比例,計算式為:
(3)
同理,網絡信息冗余率Re為冗余節點所占的比例,計算式為:
(4)
3.2 網絡結構模型及數據來源
由Watts D J 等人提出的WS小世界模型以及Barabasi A L 等人提出的BA無標度模型是復雜網絡研究中的兩個基本模型。現實生活中很多網絡具備小世界和無標度網特性,如電力網、電影演員合作網等,社交網絡也同樣如此。研究中除了使用兩個基本模型及可調集聚系數的無標度模型之外,在部分仿真實驗中也選取了3個真實社交網絡數據,包括美國社交平臺Facebook網絡、法國在線音樂社交網絡、維基百科投票網絡。網絡的主要拓撲以及統計特征見表1。
4 研究結果
4.1 節點冗余概率
2016年,在微信平臺上轉發量達10萬次以上的文章中,《羅一笑,你給我站住》就是信息“病毒式”傳播的典型代表。“羅一笑事件”的相關新聞在各大社交平臺都出現了刷屏現象,事件相關轉發量達到近1 000萬次,傳播鏈條最長達到74人,信息覆蓋及二次曝光率位居當年前列。其傳播路徑可視化結果顯示,信息傳播呈現與隨機游走方式相似的鏈條式特征,使得信息二次轉發性強,擴散范圍大。因此,首先假定社交網絡中造成大范圍冗余的信息傳播模式為隨機游走,探究節點在信息傳播中發生冗余現象的概率Poi。
在隨機游走過程中,在節點個數為N的網絡中,任意節點i被訪問的概率Pri與節點的度di成正比:
(5)
對于節點i,設相鄰節點的序號分別為k1,k2,…,kdi,當隨機游走步長n=1時,定義任意一個節點i的鄰居節點中,有一個及以上節點發布同一信息的概率為:
(6)
其中,令i節點周圍任意節點都未被訪問的概率為zi,zi(n)為n步下的概率,則:
(7)
n步后,節點i是覆蓋節點的概率為:
(8)
同理,n =1時,定義任意一個節點i 的鄰居節點中有兩個及以上節點被訪問的概率為:
(9)
其中,設節點i周圍恰好有一個節點被訪問的概率為wi,wi(n)為隨機游走n步下的概率:
(10)
當n=2時,任意一個節點鄰居節點中有兩個及以上節點被訪問的概率為:
(11)
以此類推,隨機游走 n 步后,該節點鄰居節點中有兩個及以上節點被訪問的概率為:
(12)
排除節點i周圍任意節點在恰好只有一個鄰居節點被訪問的情況下,被重復多次訪問的概率:
(13)
因此,根據網絡中的節點度,就可以大致得到該節點在傳播過程中出現冗余現象的概率。為了驗證數學解析得到的節點冗余概率與傳播過程中實際發生冗余現象節點比例的吻合程度,建立由N個節點組成的無標度網絡,信息以隨機游走方式進行傳播。圖2顯示了對于特定Poi值而言,在多次實驗后,實際有多少比例的節點出現了信息冗余現象。仿真結果顯示,Po i與實際結果吻合較好,散點大部分落在標準線附近。
圖2?節點冗余概率與傳播過程中實際冗余節點比例吻合度
4.2 不同因素對信息冗余的影響
本文主要從以下幾個方面探索不同影響因素對信息冗余的影響。
(1)傳播率α
在信息傳播過程中,定義傳播率α為任意用戶發布事件的可能性。研究中利用信息的傳播率來代表微信、微博等現實社交平臺中事件的熱度。高頻率出現或多人發布的內容往往是熱門程度較高的消息,如社會突發事件、娛樂八卦、時事政治等類型的事件,往往表現出強大的傳播和擴散能力。
(2)節點度d
節點度指標給出了整個網絡中每個節點擁有的好友數量,是網絡節點重要程度的初步體現。一般而言,節點度值越大,該節點與其他節點交互越多,對網絡具有更大的影響,擁有更多獲取信息的機會和途徑。網絡平均度D為網絡中所有節點的度的平均值。
(3)集群系數C
集群系數的高低代表網絡中“三角形”結構數量的多少。
4.2.1 傳播率對信息冗余的影響
首先,建立網絡規模為N的WS 小世界網絡模型,分析不同傳播率條件下,信息冗余程度的變化趨勢。從圖3可以看出,信息傳播過程符合網絡從一個傳播節點開始,直到所有個體都獲取到信息的模型假設。并且值得注意的是,若對傳播中的某一時刻(如t=50)進行分析,可以發現,同一時刻下,信息重復率與傳播率正相關。這說明,傳播率高的信息往往具有較為強大的擴散和傳播能力,信息冗余現象受當下輿論熱點話題、頭條新聞等熱門事件影響很大。
圖3?傳播率對信息重復率的影響(網絡參數N=2 000,D=4)
4.2.2 網絡密度對信息冗余的影響
本文將網絡平均度D作為衡量網絡密度的指標。圖4顯示在同一時刻下(如t=70),網絡密度越大,信息重復率越高;除此之外,網絡平均度達到某個值時會導致網絡信息重復率突然升高。比如D=3時,信息還不能得到有效的擴散,但當網絡中每個節點平均只多一個好友時,即D=4,在同樣的傳播時刻下,網絡信息重復率出現大幅度升高,大大增加了信息的冗余。因此,網絡信息重復率的高低、信息冗余程度不僅與節點度這一屬性相關,還對節點度的變化非常敏感。
圖4?網絡復雜度對信息重復率的影響(網絡參數N=2 000,α=3%)
4.2.3 集聚系數對信息冗余的影響
社交網絡中,集聚系數的大小代表網絡中三角形關系結構的多少。一個人的朋友之間往往也可能是朋友,這種節點好友之間也互為朋友的結構會影響節點間獲取信息的概率和機會。如在B、C分別是A的好友,但B、C之間互不相識的情況下(如圖5(a)所示),A發布信息的狀態對B是否能獲取到該信息起決定性作用;但在B、C分別是A的好友且B、C之間也互為好友的情況下(圖5(b)),即使A不發布信息,B也同樣能從C處獲取到信息,這大大增加了節點B獲取信息的機會和途徑。因此,在可調集群系數的無標度網絡上分析集群系數與信息冗余之間的關系。如圖6所示,在多次實驗后,可以明顯看出隨著網絡集聚系數的增加,網絡中三角形結構增多,網絡信息重復率得到了明顯的抑制和降低。
圖5?三角形人際結構關系
圖6?可調集群系數的無標度網絡下,信息重復率隨集群系數變化趨勢(網絡參數N=2 000,M=3,t=5)
網絡可視化有助于直觀地了解網絡特征、網絡任意時刻的節點狀態。因此,為了探究集群系數增大導致網絡信息重復冗余率被抑制的原因,筆者選取了兩個集群系數有所不同的網絡模型,分別對兩種網絡結構下的信息傳播過程進行了可視化,如圖7所示。黑色和灰色分別代表已發布信息和未發布信息的節點。可視化結果顯示,在網絡中信息覆蓋節點數相同的情況下,集群系數較大,即網絡中具有較多的“三角形”結構的B網絡模型,其信息擴散范圍明顯沒有A模型大,且B網絡中已發布信息的節點S在網絡中的位置非常集中,而A模型中S類節點覆蓋范圍廣,從網絡中心一直到網絡的邊緣,傳播鏈長。這說明三角形人際關系結構雖然增加了信息擴散的機會和途徑,但這種結構的“小圈子”封閉性會導致信息的傳播受到抑制,使信息傳播存在“盲區”,信息傳播限制在一個圈子中,降低了信息擴散的范圍。因此,集群系數的增大對信息冗余有明顯的抑制作用,社交網絡中這類三角形結構有助于抑制傳播中的信息冗余現象。
圖7?不同聚類系數網絡模型的信息傳播可視化(網絡參數N=2 000,M=3)
4.3 冗余信息特征分析
為觀察普通信息與二次轉發性較強信息之間的差異,分析信息冗余率隨信息傳播的變化趨勢。分別在3種社交網絡上進行了仿真,結果如圖8所示。隨著信息轉推層數的增長,信息覆蓋率和冗余率不斷升高,但隨著時間以及信息轉推層數的逐漸增多,信息熱度漸漸下降,傳播人數逐漸趨于穩定。同時,在新浪微博約4.3億個節點的網絡上,選取了近3個月內熱門的10條信息進行了實際數據驗證,如圖9所示,信息覆蓋率、冗余率增長趨勢與仿真一致。
圖8?3種真實社交網絡上信息覆蓋率及冗余率信息轉推層數的變化趨勢
圖9?新浪微博近3個月內10條熱門信息覆蓋率及冗余率隨傳播層數的變化趨勢,每條曲線代表一條信息
值得注意的是,從10條信息的傳播過程可以看出,熱門信息及容易刷屏的信息主要分為兩類:第一類信息如圖9(a)、圖9(b)所示,這類信息由大V博主發布,如娛樂明星或企業機構的官方微博,內容以廣告推廣或明星的個人宣傳為主。在傳播特點上,這類信息在第二層或第三層的轉發量就可以達到全部轉發量的80%左右,也就是說,博主僅依靠自身擁有的粉絲而產生的轉發量就可以達到非常可觀的覆蓋效果。而在第二類信息傳播過程中,信息覆蓋率和冗余率變化有明顯拐點,說明這類信息在傳播過程中經過了一些大度節點,并引起了新一輪小范圍的爆發。這類信息的發布者可能只是一個粉絲量較少的普通用戶,但在信息內容上極具價值,受眾面較廣,不針對某一類用戶的喜好,如社會性新聞等。雖然在傳播初期的覆蓋面不廣,但由于信息內容具有價值優勢性,容易引起社會共鳴,雖由普通用戶發布,但在后期卻能經過大V傳播,最終得以爆發。
除此之外,兩類信息在傳播達到穩定后,信息冗余率也相差較大。相比之下,第二類信息在傳播穩定后信息冗余率更高,換而言之,更容易出現刷屏現象,維持熱度久。這是由于進入大眾視野的新聞雖然可能只是由一個小人物爆出的,但在內容上能引起社會的共鳴,而非通過“買熱搜”“買水軍”等方式產生的。同時,這一現象也說明,小度節點同樣也可以帶來很大的信息冗余。
4.4 基于冗余度傳播策略研究
這一部分考察冗余率指標在廣告推廣和產品營銷方面的意義。在進行廣告推廣時,營銷者的首要目標是在廣告信息投放后,盡可能使信息的覆蓋率最大。但從信息冗余的角度出發,更希望在保證信息具有一定覆蓋率的同時,也能盡量降低信息冗余率,以達到在廣告投放時,既能有良好的宣傳作用,也不至于產生大量廣告信息刷屏現象,從而引起用戶體驗感的降低以及對冗余信息的反感。
首先以不同的策略選擇節點源,例如按隨機選擇、按節點度、k-shell值、集聚系數等方式選擇傳播源,并在實際的社交網絡上進行仿真。結果顯示,在社交網絡中,信息一旦傳播開,信息的冗余率是不易控制的,無論選擇節點源的標準如何,對信息傳播后期冗余率的增長都沒有實質性的影響,信息的冗余率都會隨著信息覆蓋率的增長而快速增長。由此,提出一種“定點投放”策略。同樣是根據不同的標準在網絡中選擇節點源,但在該種策略中,信息不依靠轉發的方式一層一層地向外擴散,而是讓相應的節點進行信息展示和發布。如圖10所示,通過在Facebook網絡上進行仿真,可以得出,選擇網絡度較大的節點,如娛樂明星、大V以及官方微博等,可以很好地達到信息的大面積覆蓋,并且當節點數目在一定范圍內時,只會造成很小的信息冗余。但這一策略也存在缺陷,雖然實現了高覆蓋、低冗余的目標,但就廣告的收益而言,過低的冗余可能會造成大部分用戶對廣告的忽略,因此,合理的信息冗余才能實現廣告宣傳與用戶體驗的雙贏。
圖10?Facebook網絡中定點投放策略下節點信息冗余率隨覆蓋率的變化趨勢
5 結束語
本文基于復雜網絡理論,定量地分析了社交網絡中的信息冗余問題,定義了一種以個體好友信息發布的重復情況度量信息冗余程度的指標。首先,推導了個體在傳播過程中出現冗余現象的概率,分析了信息傳播率、網絡密度、集群系數對信息冗余的影響。仿真結果顯示,信息傳播率、網絡密度與信息重復率正相關,而集群系數的增長對信息重復率有明顯的抑制作用。其次,探究了信息傳播過程中覆蓋率與冗余率的變化趨勢及冗余信息的擴散特點,為增加模型的可靠性和說服力,選取了新浪微博近3個月內的10條實際熱門信息,與仿真結果進行比對。結果顯示,在現實社交平臺中,二次曝光及轉發性較強的信息更容易進入大眾視野并產生刷屏現象,小度節點也可以造成很大的信息冗余。最后,還從營銷的角度探討了信息冗余在廣告推廣和產品營銷方面的意義。按照節點度等級對信息進行定點投放的策略,可以在傳播初期很好地實現信息大范圍覆蓋,同時只造成很小的冗余。因此,本文的研究結果可以有效地評估節點發生信息冗余現象的概率,為進一步了解在線社交媒體的信息擴散特征提供了新的視角,對信息傳播在營銷領域的應用也有一定的幫助,有助于深入了解網絡屬性對信息傳播的影響,對掌握信息傳播規律、冗余信息特點、社交平臺輿情都有一定的理論和實踐意義。
The authors have declared that no competing interests exist.?
作者已聲明無競爭性利益關系。?
作者簡介
秦爍(1995-),女,國防科技大學系統工程學院碩士生,主要研究方向為復雜網絡傳播動力學。
呂欣(1984-),男,國防科技大學系統工程學院副教授,主要研究方向為大數據挖掘、人類行為動力學分析。
胡延慶(1980-),男,博士,中山大學數據科學與計算機學院副教授,主要研究方向為復雜系統理論。
孟凡輝(1993-),男,中山大學數據科學與計算機學院碩士生,主要研究方向為計算傳播學。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
專題導讀:大數據創新實踐
基于公開數據的特殊人群在線活動特征挖掘
基于社會化大數據的音樂文化研究進展
利用網絡數據預測企業失信行為
結合深度學習的工業大數據應用研究
冒煙指數:大數據監測互聯網金融風險
總結
以上是生活随笔為你收集整理的在线社交媒体信息冗余现象建模与实证研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 距估计
- 下一篇: 作者:王腾蛟(1973-),男,北京大学