Exploratory Social Network Analysis with Pajek(第三版)3
第二部分 內聚性
團結、共同規范、身份認同、集體行為和社會內聚性被認為是從社會關系中產生的。因此,社交網絡分析的首要問題是調查誰是相關的,誰不是。為什么有些人或組織是相關的,而有些則不是?這里的一般假設表明,在社會特征上匹配的人會更頻繁地互動,而經?;拥娜藭囵B一種共同的態度或身份。在本書的這一部分,包括第 3 章到第 5 章,我們討論了幾種內聚性的衡量標準。您將學習在幾種類型的 社會網絡中檢測內聚子組
三、內聚子群
3.1 引言
社交網絡通常包含“粘在一起”的密集人群。我們稱它們為有內聚子群,我們假設所涉及的人不僅僅是通過互動而加入的。社會互動是團結、共同規范、身份認同和集體行為的基礎,因此互動頻繁的人可能會認為自己是一個社會群體。感知到的相似性,例如,社會團體的成員身份,有望促進互動。我們希望相似的人能夠進行很多互動,至少比與不同的人更頻繁地互動。這種現象稱為同質性或分類性:物以類聚。我們將在第 6 章中學習如何衡量這種現象。
在本章中,我們將介紹一些技術來檢測社交網絡中的內聚子組,所有這些技術都基于頂點互連的方式。這些技術是達到目的的手段,而不是目的本身。最終目標是測試結構上劃分的子群體在其他社會特征(例如規范、行為或身份)方面是否存在差異。同質性原則有效嗎?我們是否可以得出結論,一個有內聚子群代表一個新興的或已建立的社會群體?
(結構上表現的特征是否是行為人的社會特征?)
3.2 示例
1948 年,美國社會學家在哥斯達黎加(拉丁美洲)的農村地區 Turrialba 進行了一項大型實地研究。他們對正式和非正式社會制度對社會變革的影響感興趣。除其他外,他們調查了居住在名為 Attiro 社區的莊園(農場)中的家庭之間的探訪關系。訪問關系網絡(Attiro.net,繪制在圖31)是一個簡單有向圖:每條弧代表從一個家庭到另一個家庭的“頻繁訪問”。沒有記錄確切的訪問次數。邊值將拜訪關系分為普通(值 1)、親屬間拜訪(值 2)和儀式親屬間拜訪(即,教父母和教子之間);但我們在本章中不使用它們。環不會發生,因為它們沒有意義。
我們將該網絡中的內聚子組與研究人員根據實質性標準將家庭的人種學分類分為六個家庭友誼分組進行比較(Attiro_grouping.clu;我們調整了類數以獲得最佳灰色(Options> Colors> Partition Colors> for Vertices> Default Greyscale 2選項)。在幾乎沒有機會上下社會階梯的農村地區,社會群體通常以家庭關系為基礎。所有相關數據都收集在項目文件 Attiro.paj 中?,F在打開此文件,并繪制帶有partition 的網絡以獲得如圖 31 所示的社會圖(Draw> Network + First Partition 命令)。
您可能希望使用真實的顏色而不是灰色來輕松識別家庭 - 友誼分組。
我們可以在 Attiro 網絡中找到哪些有內聚性的子群,它們是否與家庭-友誼分組相匹配?圖 31 提供了親屬訪問網絡和家庭友誼分組的視覺印象,這些分組由頂點內的顏色和數字標識。如圖所示,網絡緊密結合,家庭友誼組 0 和 10 占主導地位。屬于一個分組的大多數家庭都通過訪問關系聯系在一起,因此他們在網絡離得很近。但是會出現例外情況;尤其是家庭 f43,它與第七家庭友誼分組(左)中的其他頂點分開。在隨后的部分中,我們詳細列出了這個第一印象。
3.3 密度和度
直觀地說,內聚性意味著一個社交網絡包含許多聯系。人與人之間的更多聯系會產生更緊密的結構,據推測,這種結構可能更具內聚性。在網絡分析中,網絡的密度抓住了這個想法。它是網絡中所有可能邊路的百分比。最大密度出現在一個完整的簡單網絡中,即一個簡單網絡,其中所有頂點對由一條邊或兩條弧連接,每個方向一個。如果允許環,則所有頂點在完整網絡中都有環。
- 密度是簡單網絡中的邊數與最大可能邊數的比例。
- 完全網絡是具有最大密度的網絡。
在此密度定義中,忽略了多重邊和邊值。直觀地說,頂點之間的多重邊和更高的邊值表示更有內聚性的聯系。盡管已經提出了考慮多重邊和邊值的密度測量,但我們不想展示它們。我們只計算不同的行,這意味著我們將多行視為一行,將多個環視為一個環。我們將在第 5 章討論其他衡量多重邊和邊值對內聚力的貢獻。
在親屬訪問關系網絡中,密度為 0.045,這意味著所有可能的弧中僅存在 4.5%。在這種規模的社交網絡中,發現密度分數如此之低是很常見的。密度與網絡大小成反比:社交網絡越大,密度越低,因為可能的邊數隨著頂點數的增加而迅速增加;而每個人可以維持的聯系數量是有限的。在訪問關系網絡中,您可以訪問的家庭數量存在實際限制。因此,在網絡中包含更多的家庭將降低網絡密度。
如果您想解釋或比較網絡密度,這是一個問題。 Turrialba 地區的另一個社區 San Juan Sur 的訪問網絡的密度為 0.036。這比 Attiro 略低,但差異可能是由于San Juan Sur的家庭數更大(七十五戶人家)。因此,我們無法從這個比較中得出結論。
- 頂點的度數是連接該頂點的邊數。
網絡密度不是很有用,因為它取決于網絡的大小。最好查看每個頂點所涉及的連接數。這稱為頂點的度數。度數高的頂點更有可能出現在網絡的密集部分。在圖 31 中,家庭 f88(家庭友誼組 10 的成員)通過 15 個訪問關系連接到 13 個家庭(注意 f88 和 f73、f92 之間的雙向弧表示這些家庭通過相互訪問連接) ,所以它的度數是 15。與這個家庭關聯的邊對這個家庭附近的網絡密度有實質性的貢獻。
更高度數的頂點產生更密集的網絡,因為頂點具有更多的聯系。因此,我們可以用所有頂點的平均度來衡量一個網絡的結構內聚度。這是比密度更好的整體內聚性度量,因為它不依賴于網絡大小,因此可以比較不同大小的網絡之間的平均度數。例如,Attiro 網絡的平均度數為 5.37,略高于 San Juan Sur 網絡的平均度數(5.28)。
- 如果兩個頂點由一條邊連接,則它們是相鄰的。
- 頂點的入度是它接收到的弧數。出度是它發出的弧數。
在一個簡單的無向網絡中,頂點的度數等于與該頂點相鄰的頂點數:它的鄰居。與頂點相關的每條邊都將其連接到另一個頂點,因為不會發生多重邊和環,多重邊和環會影響頂點的度數,但不會將其連接到新的鄰居。然而,在有向網絡中,有一個復雜的問題,因為我們必須區分頂點接收到的弧的數量(它的入度)和發送的弧的數量(它的出度)。請注意,頂點的入度和出度之和不一定等于其鄰居的數量;例如,家庭 f88 參與了 15 個訪問關系,但它有 13 個相鄰的家庭,因為家庭 f73 和 f92 被計算了兩次。
在本節中,我們將自己限制在無向網絡中的程度。當我們遇到有向網絡時,我們將其對稱化,這意味著我們將單邊和雙向弧變成邊。第 9 章討論了有向網絡中的入度,其中介紹了聲望的概念。
- 對稱化有向網絡就是用邊代替單邊和雙向弧。
應用
讓我們分析一下 Attiro (Attiro.net) 中的訪問關系網絡,其中 既不包含多重邊也不包含環。在 Pajek 中,網絡的密度可以通過 [Main] Network> Info> General獲得。選擇命令 General 以顯示所選網絡的基本信息,例如頂點和邊的數量及其密度。您也可以按網絡下拉菜單左側的“I”(I 代表“信息”)按鈕。執行時,此命令會顯示一個對話框,要求用戶指定要顯示的行數。當您只對網絡密度和平均度感興趣時,請求零邊。 Pajek 在報告屏幕中計算兩個密度指數。第一個索引允許環,第二個則不允許。因為環在訪問關系網絡中沒有意義——人們不會訪問自己——第二個索引是有效的。有向網絡中的密度為 0.045。最后,報告了平均度數,Attiro 為 5.37。
在無向簡單網絡中,頂點的度數等于它的鄰居數。這是度數的最簡單解釋,因此我們在本節中專注于無向簡單網絡。然而,親屬訪問網絡是有向的,因此我們必須首先對其進行對稱化。使用Network>Create New Network>Transform>Arcs→Edges>
All命令將所有弧替換為邊。 Pajek 會詢問您是否要創建一個新網絡,我們建議您這樣做,因為您以后可能想使用有向網絡。接下來,Pajek 會詢問您是否要刪除多重邊。要獲得一個簡單的無向網絡,即沒有多重邊和環的網絡,您可以選擇:選項 1(將要連接的邊路的邊路值相加成一個新邊路),2(統計與頂點連接的邊的數量) )、3(保留連接邊的最小值)、4(取它們的最大值)或 5(新邊的值將為 1)在此對話框中。您選擇這五個選項中的哪一個并不重要,因為在本章中我們不關注邊值?,F在,網絡是對稱的,而且很簡單,因為移除了多重邊并且沒有環。您可能希望以新名稱(例如 Attiro_symmetrized.net)保存它(File> Network> Save)以備將來使用。
度是一個頂點的離散屬性(它總是一個整數),所以它被存儲為一個partition 。我們使用 Network> Create Partition> Degree 子菜單中的命令獲取度partition :Input, Output, or All。 Input 計算所有入度(indegree),Output 計算所有出度(outdegree),all包括兩者。請注意,沒有方向的邊被認為是傳入和傳出,因此所有Input, Output, or All命令都會對每條邊進行一次計數。因此,在無向網絡中,選擇 Input、Output 還是 All 沒有區別。
命令 Partition> Info 將partition 顯示為 frequence表(參見表 5)。類號代表度數,因此我們可以看到對稱網絡中頂點的度數從零到十四個鄰居顯著變化。顯然,家庭 f68 與大多數家庭通過訪問聯系聯系在一起。一個家庭,家庭 f67,在網絡中是孤立的:它與其他家庭沒有定期訪問聯系。 Network>Info>General 可以根據度數分布計算所有頂點的平均度數。在這個例子中,度partition 中的類數表示整數,即一個頂點的鄰居數,但并非所有partition 都如此。因此,Partition> Info 命令不會計算和顯示平均類數。要獲得對稱網絡的平均度數,我們可以再次使用 Network>Info>General 命令,它會報告平均度數為 4.27。 Attiro 的家庭平均定期拜訪超過四個家庭。請注意,該平均度數與原始定向網絡報告的平均度數 (5.37) 不同,因為后者將入度(收到的訪問次數)和出度(發出的訪問次數)相加,這個家庭可能被計算兩次。
3.4 組件
度數為 1 或更高的頂點至少連接到一個鄰居,因此它們不是孤立的。然而,這并不意味著它們必須連接成一個塊。有時,網絡被分割成碎片。網絡的獨立部分可以被視為內聚子組,因為一個部分內的頂點是連接的,而不同部分中的頂點不相連。 Attiro 的訪問網絡并未完全連接(見圖 31)。在本節中,我們識別網絡的連接部分,稱為組件,但我們必須首先介紹一些輔助圖論概念。
讓我們看一個簡單的例子(圖 32)。直觀地,很明顯有些頂點與其他頂點相連,而另一些則沒有;例如,頂點 v2 不與其他頂點相鄰,但其他四個頂點有一個或多個鄰居。如果我們認為弧是道路,我們可以從頂點 v5 走到 v3,不考慮弧的方向,我們可以從頂點 v3 走到 v1。我們說從頂點 v5 到頂點 v1 有一條半路道(walk)。然而,從頂點 v2 開始,我們無法走到任何地方。
- 從頂點 u 到頂點 v 的 semiwalk 是一系列邊,其中一條邊的結束頂點是下一個邊的起始頂點,并且該序列從頂點 u 開始并在頂點 v 結束。
- 當半路道(walk)所有邊都不是弧,其末端頂點是弧的尾部時,它就是路道(walk)。
想象弧代表單向街道,因此我們考慮弧的方向?,F在,我們可以從頂點 v5 開車到頂點 v3,但我們無法到達頂點 v1。在圖論中,我們說存在從頂點 v5 到 v3 的路道(walk),但沒有從頂點 v5 到 v1 的路道(walk)。在路道(walk)中,您必須遵循弧的方向。
路道(walk)和半路道(walk)是重要的概念,但我們需要另一個相關的概念來定義網絡是否連接。我們應該注意到,在我們的示例中,從頂點 v5 到 v3 有很多——實際上是無限多的路道(walk);例如,v5→v3→v4→v5→v3也是一個路道(walk),我們可以根據需要多次重復循環路道(walk)v5→v3→v4→v5。顯然,我們不需要這些重復來確定頂點是否連接,因此我們使用路道(walk)和半路道(semi-walk)的更受限制的概念,它們要求 walk 或 semiwalk 上的每個頂點只出現一次,盡管起始頂點可能與結束頂點相同。在示例中,路道(walk) v5→v3 是一條路道(walk),但 路道(walk) v5→v3→v4→v5→v3 不是因為頂點 v5 和 v3 出現兩次。有人可能會說,一條路道(walk)比路道(walk)更有效,因為它不會多次通過一個路口。
- 半路徑( semipath)是半路道(semi-walk),其中半路道(semi-walk)的第一個和最后一個頂點之間的任何頂點都不會出現多次。
- 路徑(path)是一條路道(walk),其中路道(walk)的第一個和最后一個頂點之間的任何頂點都不會出現不止一次。
現在我們可以輕松定義網絡必須滿足的連接要求。如果所有頂點都通過半路徑( semipath)連接,則網絡是弱連通的——通常我們只是說連接。在(弱)連接的網絡中,如果我們忽略弧的方向,我們可以從每個頂點“游走(walk)”到所有其他頂點,前提是有任何弧。圖 32 的示例不是連通網路,因為頂點 v2 是孤立的:它不包含在任何通往其他頂點的半路徑( semipath)中。
在有向網絡中,存在第二種類型的連通性:如果每對頂點都由一條路徑(path)連接,則網絡是強連通的。在強連通網絡中,您可以從每個頂點移動到服從弧邊方向的任何其他頂點。強連通性比弱連通性更受限制:每個強連通性網絡也是弱連通性,但弱連通性網絡不一定是強連通性。我們的例子不是弱連通的,所以它不能是強連通的。
- 如果每對頂點由半路徑(semipath)連接,則網絡是(弱)連通的。
- 如果每對頂點都由一條路徑(path)連接,則網絡是強連通的。
盡管我們示例的網絡沒有作為一個整體連通,但我們可以識別連通的部分;例如,頂點 v1、v3、v4 和 v5 是相連的。與孤立的頂點v2相比,這些頂點的連接相對緊密,因此我們可以說它們是一個內聚的組。如果關系表示通信通道,則除頂點 v2 之外的所有頂點都可以交換信息。頂點 v1、v3、v4 和 v5 構成(弱)組件,因為它們通過半路徑(semipath)連接,并且網絡中沒有其他頂點也通過半路徑(semipath)連接到它們。
形式上,我們說(弱)組件是最大(弱)連通子網絡。請記住,子網絡由網絡頂點的子集和這些頂點之間的所有邊組成。最大一詞意味著在不破壞其定義特征(在這種情況下為連通性)的情況下,不能將其他頂點添加到子網絡中。如果我們添加唯一剩余的頂點 v2 , 子網將不再連通。相反,如果我們省略任何頂點 v1、v3、v4 或 v5,則子網不是一個組件,因為它不是最大的:它不包含所有連接的頂點。
同樣,我們可以定義一個強組件,它是一個最大強連通子網絡。示例網絡包含三個強組件。最大的強組件由頂點 v3、v4 和 v5 組成,它們通過兩個方向的路徑連接。此外,還有兩個由一個頂點組成的強組件,即頂點v1和v2。頂點 v2 是孤立的,只有來自頂點 v1 的路徑,但沒有到 v1 的路徑,因此頂點 v1 與任何其他頂點沒有強連通。它不對稱地連接到較大的強組件。一般來說,強組件之間的聯系要么是不對稱的,要么是不存在的。在第 10 章中,我們將詳細介紹此功能。
- (弱)組件是最大(弱)連接子網絡。
- 強組件是最大強連通子網絡。
在無向網絡中,邊沒有方向;所以每條semiwalk也是一條walk,每條semipath也是一條path。因此,只有一種類型的連通性,相當于有向網絡中的弱連通性,以及一種類型的組件。在無向網絡中,組件彼此隔離;不同組件的頂點之間沒有邊。這類似于有向網絡中的弱組件。
在有向網絡中,您應該尋找強組件還是弱組件?選擇取決于實質性和實際考慮。實質性原因與您對關系方向的重視程度有關:這對社會過程是否重要:行為人 A 轉向行為人 B,行為人 B 轉向行為人 A,還是兩者兼而有之?如果正在調查通信流程,那么誰發起聯系可能并不重要。
如果家庭 f98 訪問家庭 f11 和 f99(圖 33,左),它可能會通知家庭 f11 關于家庭 f99,反之亦然。家庭 f11 和 f99 可以共享信息,盡管它們之間沒有路徑。在這種情況下,關系的方向是非常不重要的,弱組件是首選。
如果實質性的參數是不明確的,組件的數量和大小可用于在強組件和弱組件之間進行選擇。回想一下,強組件比弱組件更嚴格,這意味著強組件通常比弱組件小。首先檢測弱組件是一個很好的策略。如果一個網絡由一個大的弱組件(例如 Attiro 中的網絡)主導,我們建議在下一步中使用強組件來分解弱組件。
圖 33 顯示了訪問關系網絡中的強組件。多個頂點的每個強組件都由輪廓手動描繪。輪廓外的每個頂點本身就是一個強組件(例如,f67 和 f59 族)。根據家庭-友誼分組的原始分類由頂點顏色和頂點內的數字表示。我們看到,大的弱組件被分成幾個小的強組件,其中一些近似于家庭-友誼分組,例如家庭-友誼分組 1(右側)和 7(左側)
通過考慮連接頂點的不同路徑或半路徑的數量,可以將組件進一步拆分為更密集的部分。在弱組件內,每對頂點之間的一個半路徑就足夠了,但在一個雙連通組件中必須至少有兩個不同的半路徑。雙連通組件的概念將在第 7 章討論。這可以推廣到 k 連通組件:每對頂點由至少 k 個不同的路徑或半路徑連接的最大子網絡。例如,弱組件是 1 連通組件,雙連通組件是 2 連通組件。
應用
使用 Pajek,很容易在訪問關系網絡 (Attiro.net) 中找到組件。網絡菜單 Network> Create Partition> Components,用于查找三種類型的組件:強、弱和強周期性。這里不討論強周期組件。當您執行命令 Strong 或 Weak 時,會出現一個對話框,詢問組件的最小大小。有時,非常小的組件并不有趣;例如,孤立的頂點,如果最小組件大小設置為 1 個頂點,則將其計為單獨的組件。提高此數字以排除它們。該命令創建一個partition ,其中每個類代表一個組件。用強組件partition (Draw> Network + First Partition)繪制網絡,可以看到圖 33 中等高邊包圍的簇。用原始的家庭-友誼分組partition 繪制它,得到圖 33 中由頂點顏色表示的簇. 圖 33 結合了這兩種布局。
在無向網絡中,選擇強組件還是弱組件沒有區別,因為這些命令會產生相同的結果。此外,有向網絡中的弱組件等于對稱網絡中的組件。因此,當您想知道有向網絡的組件時,沒有必要對其進行對稱化:只需計算有向網絡中的弱組件即可。
3.5 核
度的分布揭示了個別頂點周圍的局部集中,但它并不能告訴我們具有較高的度的頂點是聚集還是分散在整個網絡中。在本節中,我們使用度數來識別緊密連接的頂點簇,因為每個頂點在簇內都有一個特定的最小度數。我們不關注一個頂點的度數,而是關注一個簇內所有頂點的度數。這些簇稱為 k 核,k 表示核內每個頂點的最小度數;例如,一個 2-core 包含在核中以 2 或更多度連接到內部其他頂點的所有頂點。 k 核識別相對密集的子網絡,因此它們有助于找到有內聚性的子組。然而,如圖所示,k 核本身不一定是一個有內聚性的子群!
- k 核是一個最大子網,其中每個頂點在子網中的度數至少為 k。
k 核的定義比你想象的要復雜。如果我們將其應用于簡單的無向網絡,則最容易解釋,并且通常我們僅將其應用于這種類型的網絡。在一個簡單的無向網絡中,頂點的度數等于其鄰居的數量,如 3.3 節所述,因此 k 核包含在核內至少有 k 個鄰居的頂點。那么,一個 2-core 由所有連接到 core 中至少兩個其他頂點的頂點組成。在定義中,單詞“最大值”意味著我們對滿足所需屬性的最大頂點集感興趣,在這種情況下,指擁有核內的 k 個鄰居的最小數量。
我們通過對稱化有向網絡獲得的無向訪問關系網絡包含一個大的 3 核(圖 34 中的白色頂點)。在 3 核中,每個家族至少與其他三個家族相連。此外,還有2核(深灰色)、1核(黑色)、0核(淺灰色)。親屬訪問網絡中的 k 核是否代表有內聚性的子組?對于 3 核,這似乎是真的,因為它顯然是網絡中的一個密集口袋。然而,2 核和 0 核由一個頂點(族 f59 和 f67)組成,并且位于網絡中的兩個不同位置(左側和底部)。將它們視為有內聚性的子群是愚蠢的。
較低 k 核的含義可以通過圖 35 中的簡單示例來說明。這個小網絡是連接的,因此所有十個頂點都鏈接到至少一個其他頂點。結果,所有頂點都屬于 1-core,在圖 36 底部用黑色繪制。
一個頂點 v5 只有一個鄰居,因此它不屬于 2-core(灰色,在圖 36 的中間)。 頂點v6 的度數為 2,因此不屬于 3 核(白色,在圖 36 的頂部)。其他頂點屬于最高的 k 核,因此生成的社會圖如圖 35 所示:不同的層級一層一層堆疊。我們說 k 核是嵌套的:3 核中的頂點也是 2 核的一部分,但并非 2 核的所有成員都屬于 3 核。
該示例說明了 k 核的另一個特性,即k 核不必連接。由于嵌套,k 核內的不同內聚子組通常由屬于較低核的頂點連接。在圖 36 中,作為 2 核一部分的頂點 v6 連接了 3 核的兩個段。如果我們消除屬于 3 核以下的核的頂點,我們將獲得一個由兩個組件組成的網絡,這些組件標識了內聚子組.
這正是 k 核幫助檢測內聚子組的方式:從網絡中移除最低的 k 核,直到網絡分解成相對密集的組件。然后,每個組件被認為是一個內聚子組,因為它在組件內至少有 k 個鄰居。在(非常)大的網絡中,這是尋找有內聚性的子組的有效方法。然而,在 Attiro 訪問關系網絡中,這種策略不起作用,因為沒有未連接的 k 核。消除較低的 k 核不會將網絡拆分為單獨的組件。
應用
在 Pajek 中,使用Network> Create Partition> k-Core> Input, Output, All 檢測 k-core。 Input、Output 和 All 命令的操作方式與 Network>Create Partition>Degree 子菜單完全相同,區分輸入核、輸出核和忽略邊方向的核。我們建議使用 All 命令并將其僅應用于簡單的無向網絡。該命令產生一個partition ,將每個頂點分配給它出現的最高 k 核。頂點顏色和頂點內的數字顯示了圖 34 中的 k 核partition 。在此示例中,k 核不匹配人種學聚類到家庭-友誼分組中。
Operations> Network + Partition> Extract> SubNetwork Induced by Union of Selected Clusters Network> Create Partition> Components> Strong
使用 k 核partition ,您可以輕松地從網絡中刪除低 k 核以提取網絡中最密集的部分。在 Partition 下拉列表中選擇 k 核partition 并執行 Operations> Network + Partition> Extract> SubNetwork Induced by Union of Selected Clusters 命令(參見第 2.4.1 節)。選擇要從網絡中提取的最低和最高 k-core,在本例中為第三個 k-core。隨后,使用 Network> Create Partition> Components> Strong 命令檢查選定的 k 核級別是否拆分為兩個或多個組件。
3.6 團和完全子網絡(Cliques and Complete Subnetworks)
在訪問關系網絡中,大多數頂點屬于一個大的 3 核。如果我們想將這個大的 3 核拆分為子組,我們需要對內聚子組進行更嚴格的定義。在本節中,我們將介紹內聚子群的最嚴格結構形式,稱為團:一系列頂點,其中每個頂點都直接連接到所有其他頂點。換句話說,一個團是一個擁有最大密度的子網絡 。
- 團是包含三個或更多頂點的最大完全子網絡。
團的大小是其中的頂點數。存在大小為 1 和 2 的最大完全子網,但它們不是很有趣,因為它們分別是單個頂點和邊或雙向弧。因此,團必須至少包含三個頂點。
不幸的是,在大型網絡中識別團非常困難:計算方法非常耗時,即使是中等規模的網絡也可能包含大量的團。因此,在本書中,我們將自己限制在對小型完整子網絡的分析上,這些子網絡可能是也可能不是團。我們專注于完整的三元組,即由三個頂點組成的完整子網;但是這個論點很容易擴展到完整的大小為 4 或更大的子網。
圖 37 顯示了完整的無向和有向三元組以及包含多個完整三元組的網絡示例。請注意,具有頂點 v1、v5 和 v6 的完整三元組是一個團,因為我們無法將網絡中的另一個頂點添加到該子網絡中,使它仍然是完全的。這個子網絡在完整性方面是最大的。相比之下,三元組 v2、v4、v5 不是一個團,因為我們可以添加頂點 v3 并且子網仍然是完整的。頂點 v2 到 v5 構成一個大小為 4 的團,順便說一下,它由四個完整的三元組組成。
圖 37 顯示了團和完整子網絡的一個非常重要的特征,即它們可以部分重疊。完整的三元組 v1、v5、v6 與完整的三元組 v2、v4、v5 部分重疊,因為它們共享頂點 v5。因此,不可能明確地分配所有頂點到一個團或完整的子網。我們不能將每個團或完整子網等同于一個內聚子組,如果我們想將頂點分類為內聚子組,這是一個嚴重的復雜性。
在社會網絡分析中,重疊團的結構被認為代表社會圈而不是單個團,被認為是有內聚性的子群。團或完整的三元組是網絡中最密集的部分或“骨骼”,因此重疊團的結構被認為是其“骨架”。有時,對團的重疊施加額外的條件(例如,兩個團必須共享的頂點的最小數量或百分比),但我們在這里不使用它們。
應用
因為團檢測對密集網絡特別有用,我們現在分析Attiro中訪問關系的對稱(無向)網絡,其密度(0.072)高于有向網絡( 0.045)。使用 Network> Create New Network> Transform> Arcs→Edges> All 命令使網絡對稱,并通過在“Remove multiple lines?”中選擇選項 1、2、3、4 或 5 來避免多重邊。該網絡過于密集,無法直觀地發現完整的三元組和重疊三元組的結構。即使是最好的充滿彈力布局繪圖也包含許多交叉邊緣,這使得很難看到完整的三元組;可能有很多。
第一步是檢測網絡中的所有完整三元組。換句話說,我們必須找到一個特定網絡或片段——在我們的例子中,一個完整的三元組——在另一個網絡,即原始網絡中的所有出現。該命令位于 Networks 菜單中,包含對兩個網絡的所有操作,它要求將片段和原始網絡分別標識為 First Network 和 Second Network。項目文件 Attiro.paj 包含網絡 triad_undir.net,它是一個完整的無向三元組。在第一個網絡下拉菜單中選擇這個網絡,在第二個網絡下拉菜單中選擇對稱訪問關系網絡。
Networks> Fragment (First in Second)
接下來,我們可以通過執行 Fragment (First in Second) 子菜單的 Find 命令找到網絡中所有完整的三元組。執行此命令,Pajek 報告它找到的片段數量,并根據片段命令的選項窗口中選擇的選項創建一個或多個新數據對象。我們建議僅選中“提取子網”和“相同頂點確定最多一個片段”選項。
后一個選項確保對片段的唯一實例進行計數,例如,三個頂點僅作為一個完整的三元組計算一次。對于大型網絡,此檢查可能需要很長時間,因此可以取消選擇該選項及其子選項 Create Hierarchy with Fragments。搜索速度更快,但同一片段有多個計數,具體取決于片段的結構。例如,每個無向完全三元組被計數六次,所以應該將計數除以這個數字。請注意,在搜索有向片段時,通常不應設置選項 Same vertices determine one fragment at most( 相同頂點確定最多一個片段),因為相同頂點可能存在不同片段,例如,完整有向三元組中的多個傳遞三元組。
這會產生一個標記為“Subnetwork induced by Sub fragments“的新網絡。之所以稱為induced,是因為 Pajek 僅選擇片段(完整三元組)內的頂點和邊。該網絡包含我們正在尋找的重疊團,我們將在本節末尾討論它。此外,Pajek 創建了一個層次結構和一個partition 。partition 計算每個頂點所屬的片段數,層次結構列出所有片段:在我們的示例中為完整的三元組。
層次結構是我們尚未遇到的數據對象。如果一個頂點可能屬于多個類,它旨在對頂點進行分類。例如,在訪問關系網絡中,一個家庭可能屬于幾個完整的三元組。層次結構是一組group的列表,每個組可能由組或頂點組成。最終,頂點是被分組的單位。圖 38 顯示了圖 37 的重疊完整三元組示例的層次結構。有五個完整三元組;它們中的每一個都由圖 38 中的一個灰色頂點表示。每個完整的三元組由三個頂點組成(圖 38 中的白色)。
請注意,大多數頂點出現不止一次,(也就是說,為實現技術上的描述,最底層的頂點使用重復出現的方式完成對group的描述)因為三元組重疊。在層次結構的頂部,一個節點(黑色)連接所有組;它被稱為根。
您可以在 Edit 屏幕中瀏覽層次結構,該屏幕使用 File> Hierarchy> View/Edit 命令或通過 Hierarchy 左側的 View/Edit 按鈕打開下拉式菜單。打開時,編輯屏幕僅顯示根目錄。單擊根之前的加號以顯示層次結構中的(第一級)組。
圖 39 顯示了 Attiro 訪問關系網絡中的 36 個完整三元組的一部分。用鼠標左鍵選擇一個組,然后用鼠標右鍵單擊以在單獨的窗口中顯示其頂點。如果在“網絡”下拉菜單中選擇了原始網絡,則頂點標簽將顯示在此窗口中的編號旁邊。這樣就可以看出哪些頂點屬于一個完整的三元組。
現在讓我們轉向導出網絡和由 Networks> Fragment (First in Second)> Find 命令創建的partition 。標有“子片段”的partition 顯示了包含特定頂點的三元組的數量。使用主屏幕中的partition >info命令,您可以看到兩個頂點屬于不少于七個完整的三元組,而十三個頂點不包含在任何一個完整的三元組中。后面的頂點不是重疊團結構的一部分,因此它們從包含 Attiro 網絡的剩余 47 個頂點的導出網絡(標記為“由子片段導出的子網絡”)中消除。
有了這個partition ,我們可以根據family-friendship分組(在Attiro_grouping.clu中)使原始partition 匹配新的導出網絡。選擇原始partition 作為第一個partition ,選擇 Fragment partition 作為第二個partition 。然后執行 Partitions>Extract SubPartition (Second from First) 命令,指定 1 為最低類號,指定 7(或更高)為要提取的最高類號。 Pajek 創建了一個新的partition ,其中包含重疊完整三元組的導出網絡中 47 個頂點的家庭-友誼分組。畫出這個網絡和partition ,并用 Kamada-Kawai 用彈力布局,以獲得社會圖40
如圖 40 所示。它具有重疊的完整三元組的三個組成部分,因此我們說我們在完整三元組的標準下找到了三個共享至少一個成員的社交圈。家庭友誼分組 1 是一個單獨的社交圈,但其他家庭友誼分組是相互關聯的,盡管它們明顯聚集在最大的組成部分中。親友分組 10 在此結構中占據關鍵位置,連接分組 0、5 和親友分組 4 的一部分。在有向網絡中,您可以遵循相同的程序,但必須使用完整的有向三元組作為一個片段(例如 triad_dir.net)。通常,您會發現有向網絡中的團比對稱網絡中的無向團少。例如,在有向 Attiro 網絡中,只有一個完整的有向三元組,包含家族 f62、f71 和 f90,因此我們不能說有向網絡中的重疊團
3.7 小結
在本章中,社會內聚性與密度和連通性的結構概念相關聯。密度是指頂點之間的鏈接數。如果一個網絡在其所有頂點之間包含路徑,則它是強連通的,當它的所有頂點都由半路徑(semipaths)連接時,它是弱連通的。連接的網絡和具有高平均程度的網絡被認為更具內聚性。這也適用于網絡的各個部分(子網)。我們期望社交網絡中的本地聯系集中來識別有內聚性的社會群體。有幾種基于密度和連通性檢測內聚子組的技術,本章介紹了其中的三種:組件、k 核和團或完整子網絡。所有這三種技術都假設子組內的連接模式相對密集,但它們所需的最小密度不同,從至少一個連接(弱組件)到所有可能的連接(團)不等。后面的章節將介紹另外兩種基于類似原理的技術(單組件和雙連通組件)。內聚子群有許多更正式的概念,但它們都基于密度和連通性的概念。組件以一種直接的方式識別內聚子組:每個頂點恰好屬于一個組件。有內聚性的子群和 k 核心或團之間的聯系更加復雜。 k-core是嵌套的,這意味著較高的k-core總是包含在較低的k-core中,因此一個頂點可能同時屬于幾個k-core。此外,k 核不一定是連接的:一個 k 核中的頂點可以分布在多個組件上。為了識別有內聚性的子組,研究人員必須消除低 k 核的頂點,直到網絡分解成相對密集的組件。團或完整的子網,例如完整的三元組,可能會重疊,即共享一個或多個頂點,因此存在重疊的團被視為一個內聚的子群的組成部分,而不是把每個組件視作單獨的團。因為檢測內聚子群的技術基于相同的原理,所以通常無法獲得支持一種技術優于另一種技術的實質性論據。技術的選擇主要取決于網絡的密度。在密集網絡中,重疊團的結構最好地揭示了內聚的骨架,而組件和 k 核更好地解開松散的網絡。在探索性研究中,我們建議先尋找組件,然后再應用 k 核,并在必要時搜索完整的三元組以細分大的 k 核(參見圖 41 中的決策樹)。
另一種選擇涉及有向關系的處理。一般來說,對稱有向關系產生高密度,所有會有更多或更大的內聚子群。對于 k 核,我們建議使用簡單的無向或對稱網絡,以確保 k 等于核心中每個頂點連接到的鄰居的數量。在有向網絡中,組件可能是弱的或強的。強組件和完全有向三元組基于雙向關系,而弱子網也考慮單邊關系。
在本章中,我們使用了子群這個詞,但一個有內聚子群并不一定是一個社會群體。我們需要通過比較結構子群體的社會特征、行為和成員的意見來檢查這一點。有時,我們對網絡中實體的先驗知識使我們能夠理解我們檢測到的有內聚性的子組。否則,我們必須系統地將識別有內聚性的子群的partition 與代表社會屬性的partition 進行比較。
總結
以上是生活随笔為你收集整理的Exploratory Social Network Analysis with Pajek(第三版)3的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 组织机构代码生成规则
- 下一篇: 单片机c51语言实训总结,大学生51单片