Exploratory Social Network Analysis with Pajek(第三版)6-2
6.4 介數
度和接近中心度是基于一個人在網絡中的可達性:信息到達一個人的難易程度。中心度和中心性的第二種方法基于這樣一種觀點,即如果一個人作為通信網絡中的中介更重要,那么他或她就更中心化。一個人對于通過網絡傳輸信息有多重要?如果一個人停止傳遞信息或從網絡中消失,有多少信息流被打斷或必須繞道更遠?由于他或她在通信網絡中的位置,一個人可以在多大程度上控制信息流?
這種方法基于介數的概念。一個人的中心性取決于在多大程度上需要他或她作為聯系鏈中的一個環節,以促進網絡內信息的傳播。一個人越是中間人,他或她在網絡中的位置就越中心。如果我們認為測地距離是最有可能在參與者之間傳輸信息的渠道,那么位于多對頂點之間的測地距離上的參與者對于網絡內的信息流非常重要。這個行為人更核心。
例如,Juan 對于鋸木廠中 HP-1 和 EM-4 之間的通信很重要,因為所有(四個)測地距離都包括 Juan(圖 61)。相比之下,HP-5 和 HP-7 或 EM-2 和EM-5 就不那么重要,因為如果一個人不能傳遞信息,另一個人可能會扮演這個角色,HP-1 和 EM-4 之間的通信鏈仍然完好無損。
每對頂點都可能有助于頂點的中介中心度。例如,HP-5 和 EM-1 有助于 Juan 的中介中心度,因為它們的測地距離包括 Juan。相比之下,HP-4 和 HP-5 這對對 Juan 的中介中心度沒有貢獻,因為他不包括在他們的測地距離中。一般來說,我們可以說一個頂點的中介中心度是網絡中包含該頂點的其他頂點之間的所有測地距離的比例。中介中心性是中介中心度分數的變化與最大變化的比率。(本書中的變化Variation, 指一個網絡中,每個頂點的某個屬性值與所有頂點該屬性值中的最大值的差的求和數)
- 頂點的中介中心度是包含該頂點的其他頂點對之間所有測地距離的比例。
- 中介中心性是頂點的中介中心度的變化除以相同大小的網絡中可能的中介中心分數的最大變化。
很容易看出星形網絡的中心(圖 59 中的頂點 v5)??具有最大中介中心度:其他頂點對之間的所有測地距離都包括該頂點。相反,所有其他頂點具有最小中介中心度(0),因為它們不位于其他頂點之間。**星中頂點的中心度分數具有最大的變化,因此星的中介中心性是最大的:移除它的中心頂點,所有的通信聯系都被破壞了。**在線形網絡(圖 59 中的 B)中,刪除一個頂點也可能會破壞信息流,但鏈的某些部分保持完整。因此,中心度指標的變化小于星形網絡中的變化,并且介數中心性較低。
應用
Network> Create Vector> Centrality> Betweenness 命令為網絡中的頂點創建一個中介中心度向量。此外,網絡的中介中心性打印在報告屏幕中。在有向網絡中,該過程會自動搜索有向路徑,因此輸入、輸出和全部沒有單獨的命令。即使在未連接的網絡中,也可以計算中介中心度。
鋸木廠通信網絡的中介集中度為 0.55。員工的中介中心度分數范圍為 0.00 到 0.59。在圖 62 中,頂點大小表示中介中心度。幾個頂點是不可見的,因為它們的中介中心度為零:它們不是其他頂點間中介。在這個例子中,頂點的介數中心度比它們的接近中心度變化更大,因為網絡外邊緣的頂點的介數為零,而它們仍然接近網絡的一部分。因此,中介中心性高于接近中心化。
有趣的是,Juan (0.59)、EM-1 (0.21) 和 HP-5 (0.20) 比工廠經理 (0.17) 更重要。工廠部門內的每個族群——除了說英語的刨工——似乎都有一個非正式的發言人負責與其他部門或族群的溝通。作為工廠西班牙裔員工的發言人,Juan 顯然是最核心的。
6.5 特征向量中心性
除了度、接近性和中介性之外,還有第四個關于中心性的觀點。基本假設:如果你有更多的聯系人——像度中心度那樣——特別是如果你的聯系人更中心,也就是說,如果他們有很多中心聯系人,你將更重要。認識人很重要,但認識誰更重要。如果你認識有影響力的人,你更有可能通過他們施加影響。邊的方向在這里無關緊要,因此這種類型的中心性僅適用于無向網絡。
正如你可能從對這種中心性的描述中注意到的那樣,這種方法固有一個循環性:要計算一個頂點的中心度,你必須首先計算它的鄰居的中心度,鄰居的中心度同樣要計算他們的鄰居,包括我們開始的頂點。然而,這個問題有一個優雅的算術解決方案。如果我們將網絡表示為矩陣(參見第 12.2 節),則在該矩陣上計算的第一個歸一化特征向量會產生廣受歡迎的中心度值。出于這個原因,這種類型的中心性稱為特征向量中心性,盡管它可能并不總是通過特征值分析來計算。
- 頂點的特征向量中心度是它與具有高特征向量中心度的頂點相關聯的程度。
- 特征向量中心性是頂點的特征向量中心度的變化除以相同大小的網絡中可能的特征向量中心度分數的最大變化。
應用
Pajek 命令 Network> Create Vector> Centrality> Hubs-Authorities 應用的原則是頂點的重要性取決于其網絡鄰居對有向網絡的重要性。它區分樞紐(Hubs,即作為重要發送者的頂點、與重要的權威連接)和權威(Authorities,作為重要接收者的頂點,與重要的樞紐連接)。 Pajek 計算每個頂點的中心和權威權重,并將其存儲為向量。此外,Pajek 創建了一個partition ,其中包含最高得分的權威(1 類)、頂級樞紐(3 類)以及既是頂級樞紐又是最高權威的頂點(2 類)。用戶必須確定要選擇的權威和樞紐(Hubs)的數量,但這些選擇不會影響權重的計算,因此所有選擇都是安全的。對話框中的最后兩個條目(“向網絡添加循環”和“在計算中選擇有效小數位數”)對于我們的目的并不重要,因此不需要更改它們。(即在有向圖中,按照弧的方向,發出方叫樞紐,接受方叫權威)
如果應用于無向網絡,則樞紐(Hubs)和權威之間沒有區別,因此樞紐(Hubs)和權威的權重向量是相同的,并且它們與頂點的特征向量中心度得分相同。簡而言之,由 Hubs-Authorities 命令為無向網絡創建的兩個向量包含特征向量中心度值。在鋸木廠網絡中,Juan 的特征向量中心性最高(0.54),其次是工廠所有者,得分為 0.28。打印在報告屏幕中的鋸木廠網絡的特征向量中心性為 0.72。
6.6 同配性
你的聯系人的中心度問題是特征向量中心度的核心(第 6.5 節),它把我們帶到了社交網絡的另一個有趣現象:中心度高的人往往與中心度高的人聯系在一起,而中心度低的人往往與中心度低的人聯系在一起。這種現象稱為度同配性。
度同配性是同配性或匹配關系(Assortative Mixing)的特例,即與相似的其他人相關的偏好。同配性類似于同質性(homophily)——“物以類聚”——這兩個概念有時被使用,好像它們具有相同的含義。然而,在本書中,同配性指的是與頂點的數字屬性(例如人的網絡度、年齡或體重)相關的相似性。對于頂點的類別屬性(例如性別、種族或社會階層)的相似性,我們保留同質性(homophily)。數值變量之間的相似性,即關聯性,需要除分類變量之間的相似性之外的其他度量。
- 同配性是根據數字屬性將頂點連接到與它們相似的其他頂點的偏好。
- 同配系數是直接連接的頂點的一個或兩個數值屬性之間的相關性。
網絡中的同配性由同配相關系數來衡量,該系數是頂點的數值屬性(例如它們的度數)與它們直接連接的頂點的數值屬性之間的皮爾遜相關系數。最大值為 1,表示得分高的頂點與得分高的頂點相關聯,而得分低的頂點與得分低的其他頂點相關聯。最小值為 –1,表示高度頂點與低度頂點相關聯。負的同配相關系數表示負同配性。例如,在動物網絡中就身體大小觀察到了不相稱的行為。小動物想依附于大動物,期望它們會保護它們,而大動物則喜歡控制小動物的強大權力感。兩個不同物種之間的長期相互作用稱為共生(見進一步閱讀)。如果度數分類度為 0,則頂點的度數不會告訴我們任何有關其接觸度數的信息。
在無向網絡中,我們無法區分鏈接的兩個頂點。因此,同配相關系數必須對兩個頂點使用相同的數值屬性。相反,我們可以區分有向網絡中的發送頂點和接收頂點。我們可以推測發送者和接收者的不同屬性與鏈接相關。在異性婚姻制度中,新郎的家人必須向新娘的家人求婚,兒子的數量可能是發送者的重要財產,而女兒的數量是接收者的重要財產。
應用
度同配相關系數是網絡的一個特征,因此 Network> Info> Degree Assortativity命令位于網絡菜單。子選項 Input-Input、Input-Output、Output-Input、Output-Output 僅與有向網絡相關。例如,Input-Output 計算發送頂點的入度和接收頂點的出度之間的相關性。在無向網絡中,例如 Sawmill 網絡,入度等于出度,我們無法區分發送者和接收者,因此所有四個可能的子選項都會產生相同的結果。任何子選項都可以。 Sawmill 網絡的度同配相關系數為 –0.07,接近于零,表明員工的度數不是選擇討論伙伴時的重要因素。
Operations> Network + Vector> Info> Assortativity
同配性相關系數的計算,除了度同配性,需要網絡和頂點的數值屬性,它被存儲為向量。讓我們轉向第 5 章的例子,董事和公司的雙模式網絡。打開 Pajek 項目文件 Scotland.paj,將雙模網絡 Scotland.net 轉換為單模企業網絡(Network> 2-Mode Network> 2-Mode to 1-Mode> Rows,選項 Multiple Lines not selected )。在第一個向量下拉列表中選擇包含公司資本 (Capital.vec) 的向量。企業的單模網絡是無向的,因此我們必須對鏈接的兩個頂點使用相同的數值屬性,并且一個向量就足夠了。運行命令 Operations> Network + Vector> Info> Assortativity,Report 屏幕將顯示 同配性相關系數為 –0.08。同配性為負但接近于零,因此資本大的公司傾向于與資本少而不是大資本的公司共享董事。請注意,同配性相關系數不考慮邊值。
在有向網絡中,以類似方式計算同配性相關系數。讓我們使用進口的制成品網絡(打開第 2 章的示例:World_trade.paj)。國家是否從 1995 年國內生產總值 (GDP) 相似的國家進口制成品(向量 GDP_1995.vec)?在 Network 下拉列表中選擇網絡 Imports_manufactures.net,在第一個 Vector 下拉列表和第二個 Vector 下拉列表中選擇 GDP_1995.vec 或確保第二個下拉列表為空。現在,同配性相關系數(Operations> Network + Vector> Info> Assortativity)計算直接關聯國家的 GDP 之間的相關性。它的值為 0.16,因此各國傾向于從 GDP 相似的國家進口。
如果第一個和第二個 Vector 下拉列表各包含一個向量,則第一個向量用作發送頂點的數值屬性,第二個向量用作接收頂點的屬性。雖然說不通,但讓我們看看GDP大的國家是否從人口多的國家進口制造品。發送頂點是出口國,所以我們必須在第一個向量下拉列表中選擇人口規模向量(Population_1995.vec)。接收方是進口國,所以我們必須在第二個向量下拉列表中選擇 GDP 向量。同配性相關系數約為 –0.03,因此富裕國家從較小的國家進口制成品,而不是相反。
同配性相關系數需要兩個鏈接頂點的數字屬性,但有一個例外。也可以使用只有兩個類別的分類屬性(二分法)。作為示例,我們使用 Sawmill 網絡附帶的language.vec。該向量包含兩個值表示工人的主要語言:1 – 英語和 2 – 西班牙語。 Sawmill 網絡中語言的同配性相關系數非常高,即 0.79。我們可以得出結論,種族群體的成員身份與選擇與工人討論工作問題的同事密切相關。請注意,您可以使用任何一對數字來對這兩個類別進行編碼。 Pajek 將恰好具有兩個不同數字的向量解釋為二分法或虛擬變量。相反,具有三個或更多不同數字的向量被視為頂點的真正數字屬性。如果您有兩個以上的類別,請不要使用同配性相關系數;請改用E-I指數(第 5.5 節)。
6.7 小結
頂點中心度和網絡中心性的概念最好通過考慮無向通信網絡來理解。如果說社會關系是人與人之間傳遞信息的渠道,那么中心人就是那些要么擁有快速獲得在網絡中流通的信息或可以控制信息的流通。
信息的可訪問性與距離的概念有關:如果您與網絡中的其他人更近,則信息到達您的路徑更短,因此您更容易獲取信息。如果我們只考慮直接鄰居,鄰居的數量(一個簡單的無向網絡中一個頂點的度數)是一個簡單的中心度度量。特征向量中心性擴展了鄰居的重要性。如果我們還想考慮間接接觸,我們使用接近中心性,它衡量我們與網絡中所有其他頂點的距離。如果到所有其他頂點的總距離較短,則頂點的接近中心性較高。
頂點對信息流通的重要性可以通過中介中心度的概念來體現。從這個角度來看,如果一個人是網絡中其他人之間更多信息鏈中的一個鏈接,那么他或她就更中心化了。高中介中心度表明一個人是通信網絡中的重要中介。信息鏈由測地距離表示,頂點的中介中心度只是包含該頂點的其他頂點對之間測地距離的比例。
如果網絡包含非常中心的頂點和非常外圍的頂點,則網絡的中心化程度更高。網絡集中度可以從網絡內頂點的中心度得分計算:中心度得分的更多變化意味著網絡更加集中。每個中心性度量都有一個網絡中心化指標,但一些中心化度量需要特殊的網絡:度中心度僅適用于沒有多重邊和環的網絡,而接近中心度需要(強)連接的網絡。在本書中,我們僅將中心度和中心性應用于無向網絡。為有向網絡設計中心性度量很容易。我們可以將度中心度基于頂點的出度,從一個頂點到所有其他頂點的距離(而不是反向)計算接近中心度,并在中介中心度的情況下只考慮最短的有向路徑。事實上,其他關于社交網絡分析的書籍都提倡這種方法。然而,我們認為,將中心度和中心性限制在無向網絡并應用其他概念(例如聲望值)在概念上更清晰。
總結
以上是生活随笔為你收集整理的Exploratory Social Network Analysis with Pajek(第三版)6-2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python做的眼睛护士
- 下一篇: Linux——》Out of memor