基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析
《冰與火之歌》書迷遍布全球。該小說憑借其豐富的人物設置受到廣大書迷青睞。然而,在馬丁( Martin )筆下,無論好人、壞人,主角、配角都難逃命運的捉弄。除不計其數的無名小卒外,馬丁的世界里有916位有名字的角色,其中三分之一都已以各種方式結束了自己在小說中的生命。本文中,我們將進一步探究小說人物的死亡模式,建立貝葉斯生存模型來預測各角色的死亡概率。
本文數據來自冰與火之歌維基( A Wiki of Ice and Fire )。依據該數據我們創建了截至目前書中出現的916名角色的數據集。用人物首次出現的章節,性別,是否為貴族,所屬勢力,死亡的章節(若已故)作為解釋變量來預測這些角色在未來兩本書中的存活情況。
方法論
采用Weibull 分布外推在7本書中的各個角色的生存概率。Weibull分布提供了一種建立危險函數( hazard function )模型的方法。而危險函數主要測量人物在特定“書齡”上的死亡概率。Weibull分布主要依賴與兩個參數,k和lambda,這兩個參數決定了Weibull分布的形狀。
在參數估計之前我們選取均勻分布作為先驗概率。對于尚存角色,分析k和lambda如何描述人物的存活狀況;對于已故人物,分析參數如何預測人物死亡時間。
對守夜人( Night’s Watch ),生存概率的后驗分布如圖1。
圖1:lambda的分布比較緊密(在0.27附近),K的分布比較寬松
接下來,本文通過生存曲線分析人物的生存情況。為與生存曲線相聯系,計算k和lambda的均值以及90%的置信區間。進一步,繪制原始數據和基于后驗均值的生存曲線以及置信區間。
個人分析:雪諾( Jon Snow )
采用貝葉斯生存分析方法可以預測個性化人物(例如雪諾)的生存情況。在卷五:魔龍的狂舞( A Dancewith Dragons )結尾,守夜人生存的置信區間為0.36到0.56。Jon能活下來的估計并不樂觀。即使Jon可以順利活過第5本書,他在接下來的兩本書中存活的概率將降到0.3到0.51。
圖2:置信區間緊緊圍繞在真實數據周圍,均值為合理預測
值得注意的的是Jon并非守夜人的普通一員。他受過良好的教育,擁有精良的武器和戰斗技能。接下來,將樣本選為守夜人中家族地位顯赫,教育良好的貴族。守夜人中只有11人為貴族。所以置信區間(如圖3所示)非常分散,最優近似( Best Estimate )顯示貴族背景并不能提高守夜人的生存率。
圖3:當只有貴族角色時,生存曲線的置信區間顯著加寬,概率置信區間下限非常接近0
家族因素
接下來,我們分家族研究人物的生存情況。這里包括9個主要家族,守夜人,野人( the Wildlings ),和其他( a “None” category,指無法歸入某類勢力的人物)。
圖4 :Arryn (藍),Lannister (金),None (綠)及Stark (灰)的生存概率
圖5:Tyrell (綠),Tully (藍),Baratheon (橘)及Night’sWatch (灰)生存概率
圖6:Martell (橘),Targaryen (栗色),Greyjoy (黃)及Wildling (紫色)生存概率
圖4、5、6的置信區間表明艾琳家族( Houses Arryn )、提利爾家族( Houses Tyrell )以及馬泰爾家族( Houses Martell )有較高的生存率。主要原因是其遠離書中主要沖突,不過這也意味著這些家族信息較少,我們只有至多5個死亡成員樣本,所以生存曲線并沒有包含足夠的樣本點。信息量的稀疏體現為較寬的置信區間。相反,北境諸侯( in the north )、史塔克家族( the Starks )、守夜人和野人這些家族(或勢力)有較低的生存曲線和較窄的置信區間。他們在情節主線中占據主要篇幅,許多重要人物都是他們的一員。
男女(性別因素)
書中塑造了豐富的女性角色,但依舊以男性人物為主(男女比例為769:157)。女性生存概率的置信區間較寬,但是其生存狀態顯著好于男性。如圖7。
地位(階層)
小說中貴族和貧民人數差距很大,其生存曲線也展現出不同態勢。如圖8所示,平民傾向于在出場階段迅速死亡,若能安全度過“介紹期”則將存活較長時間,甚至生存概率會高于部分貴族。
圖8:貴族在介紹期存活的概率較大,但生存概率的下降速度要大于平民
個性角色分析
利用本文提及的方法,可以結合性別,家族,地位等復合因素提供針對個體角色的粗糙預測模型。在書中給一個非常受歡迎的角色是艾莉亞( Arya ),許多讀者關心她在書中的命運。史塔克家族的貴族女性中還包括一些值得注意的角色如珊莎( Sansa )和布雷妮( Brienne,宣誓效忠于史塔克家族,雖然她后來才被介紹)。另外,皇后瑟曦( Cersei )和可憐的彌賽拉( Myrcella )也十分令人著迷。為了得到生存曲線的準確區間估計,我們將貴族女子和平民女子的數據加以綜合。
圖9:各組置信區間都比較寬松。與史塔克家族相比,蘭尼斯特( Lannister )家族的貴族女性死亡可能性更高。雖然信息不明確,但艾莉亞會比瑟曦活得久一些
此外我們還關心兩個小角色,野人公主瓦邇( Val )和神秘的魁蜥( Quaithe )。她們并不是故事一開始就出現,所以分析相對比較復雜。瓦邇在章節2.1中被引入,她在整個時序中存活的概率在0.1到0.53之間。魁蜥在章節1.2中首次出現,她的生存概率為0.58到0.85,明顯高于瓦邇。
圖10:代表一些小角色的生存曲線,魁蜥和瓦邇有不同的生存曲線
有足夠的數據能夠區分大多數男性角色的家族、性別和地位,以繪制他們的生存曲線。圖11顯示,蘭尼斯特兄弟的生存曲線居中,在第七本書的生存概率為0.35到0.79。達里奧( Daario )生存曲線的置信區間較寬,但考慮到他是在章節2.5中才出現,所以存活概率較大。曼斯( Mance )的存活概率最不容樂觀。曼斯在章節2.2故事中登場,他的存活概率為0.19到0.56。
圖11:不同地位、聯盟的男性角色的生存曲線
有一些角色,我們期望看到他們一命嗚呼,但是圖12顯示他們還要活很久。希恩( Theon)似乎會痛苦的活著直到到結局。瓦爾德·弗雷( Walder Frey )在章節0.4中初次登場,存活的可能性為0.44到0.72之間。目前為止,霍斯特·徒利( Hoster Tully )可能是唯一一個死于衰老的人,所以弗雷將有可能活到結局。
圖12:不同地位、聯盟的男性的生存曲線
總結
孰生孰死在故事中充滿變數,但從現有數據中,我們可以觀察到不同組別下人物生死的模式。對于一些特定角色,尤其是男性角色,我們可以對他們在未來的故事中的遭遇做簡單預測。但對于數據較少的、非主要家族的女性來說,預測的準確性則有待商榷。
本文內容翻譯并編輯自 Bayesian Survival Analysis in A Song of Ice and Fire,by Erin Pierce and Ben Kahle.?原文鏈接:http://www.reddit.com/r/statistics/comments/31oz8n/bayesian_survival_analysis_in_a_song_of_ice_and/.compact翻譯:新妍 校對:Jude via:數據工匠
加入Python學習微信交流群
請添加微信:AI_doer
備注:姓名-單位-研究方向
往期文章
假期已過半,是否該重拾心情,繼續我們的AI事業啦
年末收藏福利 | 百度的中文問答數據集WebQA
學習 | Python之高級特性:如何寫出少而有效的代碼
學習 | Python之高抽象的編程范式——高階函數
學習 | Python之高抽象的編程范式
對話系統原理和實踐
更
多
精
彩
請猛戳右邊二維碼
公眾號ID
BetaWater
總結
以上是生活随笔為你收集整理的基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020+1 - 2021
- 下一篇: 002.2-地下管线转3dtiles工具