Exploratory Social Network Analysis with Pajek(第三版)6-1
第三部分 中介
在很多理論中,社會關系被認為是人與人或組織之間傳遞信息、服務或商品的渠道。從這個角度來看,社會結構有助于解釋信息、商品甚至態度和行為如何在社會系統中擴散。網絡分析揭示了社會結構并有助于追蹤商品和信息可能遵循的邊。一些社會結構允許信息的快速傳播,而另一些則包含難以到達的部分。
這是整個社交網絡的鳥瞰圖。但是,我們也可以關注網絡中特定人員或組織的位置。一般來說,連接良好是有利的。聯系人是獲取信息和幫助的必要條件。一個人關系的數量和強度被稱為他或她的社交能力或社會資本,在西方社會中,眾所周知,它與年齡和教育程度呈正相關。有些人在渠道系統中占據中心或戰略地位,對傳播過程至關重要。這樣的職位可能會給居住者帶來壓力,但也可能會產生權力和利潤。
在本書的這一部分,我們將關注社交網絡作為允許信息交換的結構。在這種方法中,關系的方向不是很重要,所以我們只討論無向網絡(有一個例外)。在第 6 章中,我們介紹了中心性和中心化的概念。在第 7 章中,我們討論了直接參與者網絡的結構,尤其是與這個自我網絡的特定結構相關的壓力或權力。在第 8 章中,我們在研究網絡結構在創新和疾病傳播中的作用時將時間考慮在內。
六、中心和外圍
6.1 介紹
在本章中,我們介紹中心性和集中化的概念,這是網絡分析中最古老的兩個概念。大多數社交網絡都包含處于中心位置的人員或組織。由于他們的地位,他們有更好的獲取信息的渠道和更好的傳播信息的機會。這被稱為以自我為中心的中心化方法。從社會中心的角度來看,整個網絡或多或少是中心化的。請注意,我們使用中心性來指代網絡中各個頂點的位置,而我們使用中心化來表征整個網絡。如果中心和外圍之間有明確的邊界,則網絡是高度集中的。在高度中心化的網絡中,信息很容易傳播,但中心對于信息的傳遞是不可或缺的。
在本章中,我們討論了幾種測量頂點中心性和網絡中心化的方法。我們將我們對中心性的討論限制在無向網絡上,因為我們假設信息可以在通過紐帶聯系在一起的人或組織之間雙向交換。與定向網絡中的重要性相關的概念,尤其是聲望,在本書的第四部分進行了討論。
6.2 示例
對組織的研究通常側重于非正式溝通:誰與誰討論工作問題,人們向誰尋求建議?非正式溝通對組織的運作很重要,但并不總是與組織的正式結構相吻合。了解在溝通網絡中占據中心位置的人,對于信息的傳播和檢索,至關重要。
我們的示例是小型企業內的溝通網絡:鋸木廠。所有員工都被要求說明他們與每位同事討論工作問題的頻率,以 5 分制,從每周少于一次到每天幾次不等。如果兩名員工將他們的聯系人評級為三個或更多,則他們會在溝通網絡中鏈接。我們不知道兩位員工是否必須以這種方式評價他們的關系,或者至少一名員工必須表明強度為 3 或更多。網絡存儲在文件 Sawmill.net 中。
在鋸木廠,員工會說西班牙語 (H) 或說英語 (E),這當然與他們的交流有關。鋸木廠包含兩個主要部分:磨坊 (M),將樹干鋸成圓木,刨床部分 §,刨光原木。然后有一個院子(Y),兩名員工在此工作,還有一些經理和其他官員。
圖 58 顯示了鋸木廠的溝通網絡。請注意,頂點標簽表示每個員工的種族和工作類型;例如,HP-10 是在刨床部門 § 工作的西班牙裔 (H)。在該圖中,頂點標簽而不是頂點顏色標識了員工的屬性。很容易看出,與工作相關的溝通是按照工作部分(左邊是刨工,右邊是鋸木工)和種族來構建的:西班牙裔在頂部,說英語的在底部——假設管理人員、林務員、窯工、和員工
院子里都是說英語的。這是同質性的一個例子(第 3 章),它與分類性密切相關(第 6.6 節)。
直觀地說,HM-1 (Juan) 是這個網絡中的核心人物,也許是最核心的人物。他與許多同事直接交流,通過他的直接聯系,他很容易接觸到大多數在鋸木廠工作的人。Juan似乎在刨床、軋機部門和管理層之間的信息流中占據了關鍵位置。本章介紹了集中性和集中化的正式度量,它們捕捉了這些直覺。
6.3 距離
中心化和集中化的一種方法是基于一個簡單的想法,即信息可以很容易地到達在通信網絡中處于中心位置的人。或者,換個說法,如果可以很容易獲得信息的人是中心。
一個人可以訪問的資源越多,獲取信息就越容易;例如,如果他或她的社會支持網絡更大,老年人將更容易獲得有關在哪里尋求幫助的信息。從這個意義上說,社會紐帶構成了一種社會資本,可以用來調動社會資源。因此,最簡單的中心性指標是其鄰居的數量,即他或她在簡單無向網絡中的度數(見第 3 章)。頂點的度數越高,它擁有的信息源越多,信息到達頂點的速度就越快,因此它越中心。在鋸木廠網絡中,Juan 與不少于 13 個同事通信,而工廠經理只有 7 個通信關系(圖 58)。在這方面,Juan 比經理更重要,來自車間的信息比經理更容易到達他的手中。如果度是頂點中心性的最簡單度量,那么表示網絡具有中心的程度的整個網絡的相關中心化度量是什么?讓我們首先回答另一個相關問題:給定固定數量的邊,交換信息的最有效結構是什么?我們應該注意,這個網絡必須是連接的;否則信息無法到達所有頂點。在這種情況下,已知星形網絡是給定固定邊數時最有效的結構。星形是一個網絡,其中一個頂點連接到所有其他頂點,但這些頂點之間沒有連接(例如,圖 59 中的網絡 A)。
將圖 59 中的星形網絡與包含相同數量的頂點和邊的線形網絡(網絡 B)進行比較。在星形網絡中比在線形網絡中更容易識別中心頂點,因為中心頂點之間(V5)外圍頂點(v1、v2、v3 和 v4)的差異比線形網絡中的要明顯得多。這導致了一個可能違反直覺的想法,即如果頂點在中心性方面的差異越大,則網絡會更加中心化。頂點中心性值的更多變化會產生更集中的網絡。
現在我們可以將度中心性( degree centralization)定義為頂點度數變化除以給定網絡中頂點數可能的最大度數變化。在特定大小的簡單網絡中,星形網絡具有最大度數。在星形網絡的情況下,除以最大度數確保度中心性范圍從 0(無變化)到 1(最大變化)。
- 一個頂點的度中心度(degree centrality)就是它的度數。
- 網絡的度中心性( degree centralization)是頂點度數的變化除以相同大小的網絡中可能的最大度數變化。
變化是頂點的中心度得分與它們之間的最大中心度得分之間的總和(絕對)差異。例如,在網絡 A(圖 59)中,一個頂點 (v5) 的度數為 4,這是這種大小的簡單無向網絡中的最大度數,因為該頂點連接到所有其他頂點。其他四個頂點的度數最小,在連通無向網絡中為 1。因此,度數變化量為 12:(頂點 v1 到 v4 貢獻)4 ×(4 - 1)和(頂點 v5 貢獻)1 ×(4 - 4)。在一個簡單的無向網絡中,頂點的度數變化不能超過這個,所以 12 是最大變化;當然,將 12 除以自身會產生 1.00 的度中心性。
在網絡 B 中,兩個頂點的度數為 1(v1 和 v2),其他頂點的度數為 2。因為 2 是該網絡中的最大度數,所以度數變化等于 2 × (2 ? 1) (對于頂點 v1和 v2),3 × (2 ? 2)(對于頂點 v3 到 v5),即 2。為了獲得網絡 B 的度中心化,我們將 2 除以 12,這是簡單無向網絡中的最大變化,并且我們得到 0.17。如果我們在 v1 和 v2 之間添加一條邊,則度中心性變為最小 (0.00),因為所有頂點的度數相等,因此度數的變化為 0.00,度中心性為 0.00。
度中心性=(實際最大度數?頂點度數)(理論最大度數?頂點度數)度中心性 =\frac{(實際最大度數 - 頂點度數)}{(理論最大度數 - 頂點度數)}度中心性=(理論最大度數?頂點度數)(實際最大度數?頂點度數)?
我們應該在這里發出警告。在具有多重邊或環的網絡中,頂點的度數不等于其鄰居的數量。因此,星形網絡不一定具有最大變化,如果我們將具有多重邊或環的網絡中的變化與相同的簡單星形網絡中的變化進行比較,我們可能會獲得超過 1.00 的度中心性分數。在這種情況下,我們建議不要使用度中心性。
在一個簡單的無向網絡中,度中心度只是一個頂點的鄰居數。在某些情況下,這就是我們所知道的關于人們的網絡位置的全部信息,例如,當通過一項調查收集數據時,要求人們指出他們的個人網絡的規模。但是,如果要分析網絡的通信結構,我們需要知道整個網絡中誰與誰相連;我們必須注意間接聯系,因為信息可以從一個人流向另一個人,然后再傳給其他人。在通信網絡中,如果信息不必“走很遠”,信息將更容易到達一個人。這給我們帶來了網絡中距離的概念,即某人到達網絡中的另一個人所需的步驟或中介的數量。頂點之間的距離越短,信息交換就越容易。
在第 3 章中,我們將路徑定義為一系列邊,其中第一個和最后一個頂點之間的頂點不會出現多次。通過一條路徑,我們可以到達網絡中的另一個人:我們可以通知我們的鄰居,他將信息傳遞給他的鄰居,而他的鄰居又將其傳遞,直到信息最終到達目的地。如果有一條從后者到前者的路徑,我們說一個人可以從另一個人到達。請注意,如果兩個人在無向網絡中通過一條路徑連接,則他們是相互可達的,但在有向網絡中需要兩條路徑(每個方向一個)。
在無向網絡中,兩個頂點之間的距離只是連接這些頂點的最短路徑中的邊數或步數。最短路徑也稱為測地距離。在有向網絡中,一個人到另一個人的測地距離與反向的測地距離不同,因此距離可能不同。如果您習慣于地理距離,這聽起來很奇怪,但可以將定向網絡視為單向街道系統:很容易想象從 A 到 B 的路邊與返回的路不同。然而,在本章中,我們只使用無向網絡,因此您不必擔心這個問題。
- 測地距離是兩個頂點之間的最短路徑。
- 從頂點 u 到頂點 v 的距離是從 u 到 v 的測地距離長度。
距離在社交網絡分析中很重要。回想一下小世界問題(第 1.3 節),它指出所有人之間的網絡距離非常低,平均約為 6。有了距離的概念,我們還可以定義另一個中心性指標,稱為接近中心性。頂點的接近中心性基于一個頂點與所有其他頂點之間的總距離,其中較大的距離產生較低的接近中心性分數。一個頂點離所有其他頂點越近,信息就越容易到達它,它的中心性就越高。
就像度中心性一樣,我們可以將接近中心性概念化為頂點接近中心性分數的變化量。同樣,我們將中心性分數的變化與可能的最大變化進行比較,即相同大小的星網絡中接近中心性的變化。
- 頂點的接近中心性是其他頂點的數量除以頂點與所有其他頂點之間的所有距離的總和。
- 接近中心性是頂點接近中心性的變化除以相同大小的網絡中可能的接近中心性分數的最大變化。
在星形網絡 A(圖 59)中,頂點 v5 具有最大的接近中心,因為它直接鏈接到所有其他頂點。到其他頂點的距離之和最小,即長度為 1 的四個測地距離組合成距離之和為 4。由于除 v5 之外還有四個頂點,因此頂點 v5 的接近中心性最大:4/4 = 1.00。網絡 A 的其他頂點的接近中心性得分要低得多(0.57=4/1+2?30.57=4/1+2 * 30.57=4/1+2?3),因為三個頂點距離它們兩步。
在網絡 B 中,v5 也具有最高的接近中心度,因為它位于中間,但現在它的接近中心度不是最大的(0.67),并且它與接近中心度為 0.57 (頂點 v3 和 v4)、0.40(v1 和 v2)的其他頂點的差異較小,并且。因為網絡 B 中的接近中心性分數的變化小于網絡 A,所以網絡 B 的中心化程度較低。其接近中心度為 0.42,而接近中心度最大的A是1。
請注意,如果網絡沒有(強)連接,則會出現復雜情況。如果無向網絡不連通或有向網絡不強連通,則所有頂點之間沒有路徑,因此無法計算某些頂點之間的距離。這個問題的解決方案是只考慮到我們想要計算接近中心性的頂點可到達或到達的頂點,并按可到達頂點的百分比加權總和距離。該解決方案適用于頂點的接近中心度。然而,它不允許我們計算整個網絡的接近中心性,因為如果網絡沒有(強)連接,星型網絡不一定具有最高的接近中心度數變化。因此,在網絡沒有(強)連接的情況下,我們不使用接近中心性。
應用
在第 3 章中,我們解釋了如何計算頂點的度。請注意,Network> Create Partition> Degree> All 命令只計算一次邊,如果網絡是無向的,這很好。但是,在包含邊和弧的網絡中,您可能希望將邊計算為傳入和傳出弧。如果是這樣,在使用 All 命令計算度數之前,將邊替換為雙向弧(Network> Create New Network>Transform>Edges→Arcs)。此外,我們建議在計算度中心性和度中心度之前,從網絡中刪除多重邊(Network> Create New Network>Transform> Remove> Multiple Lines)和環(Network>Create New Network>Transform> Remove> Loops)。Degree partition 告訴我們所有頂點的度中心度。對于度中心性,我們必須計算度的變化。在 Pajek 哲學中,partition 是將頂點分配給簇的分類。簇(Cluster)數不應用于計算;向量應該用于計算。出于這個原因,網絡的度中心性沒有與Degree partition 一起報告。我們必須使用 Create Vector> Centrality> Degree 子菜單來獲得報告屏幕中的度數集中。該命令將頂點的度中心度分數存儲為向量。
請注意,僅當網絡不包含多重邊和環時才報告度中心性。否則,Pajek 會報告一條消息,說明度中心性對該網絡無效。在鋸木廠網絡中,集中度為 0.289。這種集中化值僅與其他網絡相比才有意義。
如果你想知道一個頂點(例如,Juan)和網絡中所有其他頂點之間的距離,你可以使用 Network> Create Partition> k-Neighbours 子菜單中的命令,它創建一個partition ,包含該頂點與所有其他頂點之間的距離的類。輸入選項計算到選定頂點的距離,而輸出選項計算到頂點的距離。 All 命令不考慮邊的方向。在無向網絡中,您可以選擇 Input、Output 或 All 命令:它們產生相同的結果。
當你執行一個 k-Neighbours 命令時,你必須首先指定頂點編號或從其計算距離的頂點的標簽。在 Juan 的情況下,輸入 12(他的頂點編號)或 HM-1(他的頂點標簽的開始)。接下來,您可以設置要計算的最大距離的限制。在非常大的網絡中,設置限制可能會大大加快計算速度。在此對話框中,0 表示您想要所有距離,這在小型網絡的情況下通常是正確的選擇。結果存儲在一個partition 中;而無法到達的頂點或比最大距離更遠的頂點被放置在類號 999999998 中,這表明它們的距離是未知的。
在圖 60 中,頂點顏色和類號表示 Juan 和其他員工之間的距離。大多數員工直接連接到 Juan(黑色)或間接連接到一個中介(淺灰色,距離 2)。兩名員工距離 Juan 四步之遙,分別是 HP-1 和 EM-4。
員工 HP-1 和 EM-4 似乎在通信網絡中相距最遠,因為他們與 Juan 的距離為 4。但他們的測地距離不一定包括 Juan,因此他們可能會在少于八步的時間內連接起來。在 Pajek 中,可以使用命令 Network> Create New Network> SubNetwork with Paths> All Shortest Paths between two Vertices找到兩個頂點之間的測地距離。首先輸入 HP-1 的頂點編號或標簽,然后輸入 EM-4,然后對“忘記邊的值?”的問題回答“是”。因為您不想通過它們的值對邊條進行加權。這是正確的做法,除非邊值指示距離,例如地理距離。最后,一個對話框詢問是否必須在源網絡中識別路徑。如果您對此問題的回答是“是”,Pajek 會為原始網絡生成一個partition ,將測地距離上的頂點分配給 1 類,將其他頂點分配給 0 類。無論您在此對話框中選擇什么,Pajek 都會創建一個新網絡,其中包含頂點和構成測地距離的邊(圖 61)。
此外,它還會在報告屏幕中打印距離。在我們的示例中,HP-1 和 EM-4 之間的所有測地距離都包括 Juan(參見圖 61),因此 HP-1 和 EM-4 之間的距離不能小于 8,即它們到 Juan 的距離之和。
對于網絡的一般描述,所有頂點對之間距離的頻率分布通常很有用。網絡的特征是短測地距離還是長測地距離?命令 Network> Create Vector> Distribution of Distances? 報告網絡中的平均和最大距離,并生成一個包含距離分布的向量。請注意,這不是一個網絡中的每個頂點都有一個條目的普通向量,相反,它為每個距離包含一個條目,并且向量值指定網絡中具有此長度的測地距離的數量。編輯距離分布向量 (File> Vector> View/Edit) 以檢查鋸木廠網絡中的距離分布:124 對頂點通過長度為 1 的路徑連接,308 對通過長度為 2 的路徑連接,依此類推。
在 Pajek 中,計算接近中心度很簡單。因為接近中心度的值是連續的而不是離散的,所以中心度命令位于 Network> Create Vector> Centrality> Closeness 子菜單中,可以計算網絡中所有頂點的接近中心度。對于無向網絡,您可以選擇Input, Output, or All,但都產生相同的結果。如果網絡沒有(強)連接,Pajek 會創建一個具有接近中心度分數的向量,但它不計算接近度中心性,這在這樣的網絡中是未定義的。無法到達或來自所有其他頂點的頂點的接近中心度設置為0。對于中型和大型網絡,接近中心度需要大量計算時間,因此應謹慎應用。
Pajek 使用頂點的接近中心度值創建一個向量。你可以檢查這個向量或者按照前面章節中解釋的方式將它用于計算。在我們的示例中,接近中心度值范圍從 0.20 到 0.51,而 Juan (0.51) 比經理 (0.42) 更中心化。此外,Pajek 計算網絡的接近中心性,并打印在報告屏幕中。鋸木廠通信網絡的緊密度中心性得分為 0.38,再次強調,與其他網絡相比,必須對其進行解釋。
總結
以上是生活随笔為你收集整理的Exploratory Social Network Analysis with Pajek(第三版)6-1的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Smartbi:财务人的福音,原来企业财
- 下一篇: 云计算之 PaaS详解