基于百度贴吧的HIV高危人群特征分析
基于百度貼吧的HIV高危人群特征分析
肖時耀, 呂慰, 陳灑然, 秦爍, 黃格, 蔡夢思, 譚躍進, 譚旭, 呂欣
?國防科技大學系統工程學院,湖南 長沙 410073
?湖南益陽康雅醫院腫瘤科,湖南 益陽 413002
?深圳信息職業技術學院軟件工程學院,廣東 深圳 518172
?
摘要:對百度貼吧“恐艾吧”中在線高危人群的帖子內容、線上活動時間規律進行了分析,利用LDA話題模型,對比分析了有無HIV感染者參與的主貼討論的話題之間的差異,使用基于關鍵詞的機器學習方法區分了在“恐艾吧”中發布話題的用戶的性取向,計算不同性取向人群中HIV的流行率。研究結果說明,使用在線數據挖掘的技術和方法比傳統方法更加高效,可以作為高危人群研究的重要補充。此外,基于機器學習對人群性取向進行智能判別,對于公共衛生管理部門監測疫情在不同人群中的發展狀況有重要意義。
關鍵詞:?在線高危人群 ; 男同性戀 ; HIV ; LDA話題模型 ; 百度貼吧 ; 機器學習
論文引用格式:
肖時耀, 呂慰, 陳灑然, 秦爍, 黃格, 蔡夢思, 譚躍進, 譚旭, 呂欣. 基于百度貼吧的HIV高危人群特征分析. 大數據[J], 2019, 5(1):98-108
XIAO S Y, LV W, CHEN S R, QIN S, HUANG G, CAI M S, TAN Y J, TAN X, LV X. Analysis of HIV high-risk population characteristics with Baidu Tieba data. Big data research[J], 2019, 5(1): 98-108
1 引言
高危人群通常指人類免疫缺陷病毒(human immunodeficiency virus,HIV)傳播風險較高的人群。據世界衛生組織統計報告分析,全球有3 690萬HIV感染者,平均每天就有4 900人感染HIV,如何有效地控制HIV的傳播已成為全球公共衛生領域一大挑戰。在中國,性傳播已經成為HIV傳播的最主要途徑。其中男男同性傳播約占新增HIV感染案例的1/4,異性性行為傳播約占新增HIV感染案例的2/3。盡管男男同性傳播新增感染數不如異性性行為新增感染數多,但在男同性戀(MSM)群體中HIV流行率近年來呈現快速上升的趨勢。根據中國疾病預防控制中心的艾滋病疫情哨點監控數據可知,2014年MSM人群的HIV流行率接近8%,遠高于其他監測人群(如性工作者、吸毒者等)的HIV流行率。
當前研究主要聚焦在HIV的傳播途徑以及MSM中HIV的流行率,大多數對高危人群的研究是通過現實接觸下的訪談、問卷調查或者研究以往的文獻等方式獲得數據的。隨著社交網絡深入人們的生活,高危人群在網絡社區更加活躍,他們在網絡社區留下的言 論等信息為研究高危人群提供了大量數據。例如,在百度貼吧的“gay吧”中,有432萬用戶發布了2.9億個帖子。移動應用Blued作為中國男同性戀群體中最受歡迎的社交軟件,擁有約2 800萬個國內用戶。互聯網中的高危人群數量遠遠多于任何一項調查所能接觸到的高危人群數量。這也使得在線高危人群成為對公共衛生安全有重要影響的群體。同時,據Liau等人的研究,約有40%的男同性戀會在網上尋找性伴侶,除此之外,互聯網也是性交易的一個重要渠道。在線社區除了擁有廣泛的高危人群用戶以外,由于互聯網的匿名性,在線高危人群可以以較小的心理壓力在互聯網上聊天交友,甚至毫無遮掩地談論自己發生過的可能導致感染HIV的高危行為,真實地展示出自己的行為特征,而不太需要擔心可能被歧視。因此,相比傳統的問卷調查手段,通過互聯網采集高危人群的信息,不僅可以節省大量的人力物力,獲得遠多于傳統問卷調查能采集到的樣本,更重要的是獲取的樣本信息更具有真實性。這對于了解在線高危人群的行為特征、控制HIV疫情以及幫助HIV患者更好地治療都有積極意義。
2 相關工作
對高危人群的研究一般聚焦于對MSM以及性工作者的研究。中國MSM群體占總人口的比例一直沒有全面的、令人信服的數據,2004年一項嚴格設計的大樣本調查發現,在中國,20~64歲的男性中有2%自稱同性戀。2012年,Zhang等人對來自中國5所大學的1762名大學生進行了問卷調查,結果顯示在大學生群體中MSM的比例大約為8.5%。HIV在MSM群體中的流行率遠高于異性戀群體,在中低收入國家,MSM群體感染HIV的可能性是異性戀人群的19.3倍。MSM群體是感染HIV的高風險人群,然而受中國傳統文化的影響,男同性戀者會感到自己容易被歧視,因而針對MSM群體的調查研究往往耗時耗力。Wu等人經過18個月的時間對中國61個城市的MSM群體進行調查,發現MSM群體中HIV流行率為4.9%,具有較高的HIV流行率。而在世界范圍內, MSM人群中HIV流行率為3.0%~25.4%,其中北美洲、南美洲、中美洲、南亞、東南亞以及撒哈拉以南非洲的HIV流行率相當一致,均為14%~18%。
性工作者也是感染HIV的高風險人群。Baral等人通過文獻搜索,將102份包含了50個國家共99 878名女性性工作者的文章和監測報告納入分析,得出性工作者的總體HIV流行率為11.8%的統計結果。
近年來,隨著網絡技術的發展,一些創新性研究利用互聯網進行展開。Rocha等人對巴西的一個線上評價性工作者的論壇進行了分析,發現性工作者之前的高分評價會影響其未來的商業成功。Lim等人通過在亞洲最大的男同性戀在線社區Fridae.com發布問卷調查的方式,對MSM的高危行為進行歸因分析。Liu等人對百度貼吧中與HIV有關的貼吧進行話題分析、情感分析以及社交網絡分析。隨著機器學習技術的普及,機器學習方法也被運用到人群的區分上。Eichstaedt等人通過分析抑郁癥人群發表的推特信息,預測推特用戶患上抑郁癥的可能,預測能力可以達到與抑郁癥問卷調查同樣的區分能力。目前,國內仍缺乏通過機器學習對在線人群進行區分的研究。
3 數據獲取及分析技術
3.1 數據爬取
本文基于Python的Scrapy框架設計網絡爬蟲,爬取2007年8月7日至2018年7月8日“恐艾吧”論壇上的全部帖子數據。主要爬取的字段包括用戶ID、用戶昵稱、主貼ID、帖子ID、發帖時間、帖子內容等。在爬取的數據中,一共有104 796個用戶參與討論,其中36 907個用戶發起了113 243個主帖。
3.2 HIV感染者篩選
盡管“恐艾吧”中自述有過高危行為的人很多,但是感染HIV的人卻并不常見,在初篩檢測中為陽性反應的也不多見。因此,若單純通過人工篩選,判斷主帖發起者中誰感染了HIV,工作量巨大。通過觀察,“恐艾吧”中認為自己極有可能感染HIV的用戶,很有可能會發帖表示自己感染了HIV。此外,“恐艾吧”有一種極具特色的互幫互助的氛圍,對于發起話題討論自己出現了初篩陽性的用戶,其他用戶會鼓勵他們繼續去中國疾病預防控制中心復查確診,并祝福他們拿到“陰性”結果,推翻初篩結論。因而,在可能感染HIV的用戶發布的主帖中,往往會出現“翻盤”“祝陰”等具有祝福色彩的詞語以及“中獎”等表示自己可能感染HIV的詞語。使用這些特定詞對論壇的帖子進行初步篩選,可以大大縮小篩查范圍,將篩查范圍縮小到7 243個主帖。然后再人工篩選真正感染了HIV的用戶,即可得到“恐艾吧”中感染HIV的用戶,篩選流程如圖1所示。
圖1???“恐艾吧”HIV感染者篩選流程
經過最后的人工篩選,可以確認的HIV感染者有84名,約占發起主帖用戶的0.228%。在84名感染者中,70例是通過男男性接觸感染的,9例是通過異性性接觸感染的,5例不能確定感染途徑。
3.3 LDA話題模型
L DA話題模型是一個三層貝葉斯概率模型,包含文檔、話題和詞3層結構,屬于無監督的生成式概率模型,可以有效提取文本主題。運用L DA話題模型,可以將一篇文檔用一系列話題以及各個話題的概率表示出來,而話題由一系列詞語以及詞語在該話題下出現的概率來表示。
將L DA話題模型應用到貼吧文本集時,把“恐艾吧”中一個主帖下的所有帖子看作一篇文檔,所有主帖構成文本集。如果一個主帖下面有HIV感染者發表帖子,該主帖則被看作有HIV感染者參與討論的主帖。相反,如果一個主帖下面參與討論的成員全都不是HIV感染者,則該主帖被看作無HIV感染者參與討論的主帖。在計算不同人群的話題分布時,采用加權平均的方法。通過L DA話題模型可以得到一篇主帖中各個話題的概率,假設一個文本集有n個主帖m個話題,主帖i (i=1, 2, … , n)中話題j(j = 0, 1, … , m-1)的概率為P(posti, topicj),那么,在整個文本集上,話題j的加權平均概率為每一篇主帖中話題j的概率的加權平均,即:
根據式(1)即可分別計算得到由有HIV感染者參與討論的主帖組成的文本集和由非HIV感染者參與討論的主帖組成的文本集中各個話題的加權平均概率。
3.4 基于機器學習的在線人群性取向分類
為了構建機器學習的訓練樣本,本文從已有數據中隨機選取800個主帖,根據主帖討論的內容涉及的高危行為及行為對象,人工判斷發起主帖的用戶屬于異性戀、同性戀(這里僅指男同性戀,因為女同性戀在“恐艾吧”極少見,未在樣本中發現)還是未知(即無法根據已有信息判斷其性取向)。例如,用戶A發帖自述自己與男性同性發生過高危行為,則人工判定用戶A為同性戀。圖2為800個樣本中性取向的分布情況,同性戀只占很少的比例,約為樣本總數的5.6%,異性戀和未知樣本約占樣本總數的52.8%和41.6%,占樣本總數的絕大部分。
圖2???“恐艾吧”人工構建性取向樣本的性取向分布
“恐艾吧”成員很有可能會在帖子中對其高危行為進行描述,根據描述的行為對象和具體行為比較容易判斷成員的性取向。因此,將與高危行為和行為對象有關的關鍵詞作為特征,構建機器學習多分類模型。本文設置了異性性服務、異性性行為、對方女性、第三人稱女性、第三人稱男性、女性特有詞、家庭、男男性行為、對方男性、直言同性戀、男男專有詞11類關鍵詞,如果一個主帖下的討論帖子至少出現某類關鍵詞中的一個,則將該特征值設為1,否則設為0。使用邏輯回歸進行多分類訓練,訓練標簽分為男同性戀、異性戀和未知3類。本文使用65%的數據進行訓練,剩余35%的數據用作測試。
4 研究結果
4.1 “恐艾吧”帖子內容
使用第三方庫jieba分詞對“恐艾吧”論壇帖子進行中文分詞,以哈爾濱工業大學中文停用詞表為基礎,結合所處理的帖子文本中無明顯意義的詞( 如“哈哈”“是不是”“還是”等),按詞頻制作帖子內容的詞云圖(如圖3所示)。論壇上的聊天內容大部分為討論自身出現的癥狀(如“癥狀”“淋巴結”“低燒”等詞)、就診檢測的經歷(如“醫院”“醫生”“檢測”等詞)以及一些高危行為(如“高危”“行為”等詞)。
圖3???“恐艾吧”論壇帖子詞云圖
4.2 論壇成員活躍時間
對“恐艾吧”每天的發帖時間進行統計,得出在每個時間段的發帖頻率(如圖4所示)。在線高危人群在“恐艾吧”論壇比較活躍的時間段是9:00—23:00,這段時間內發帖頻率一直維持在較高狀態, 22:00以后發帖頻率逐漸降低,到凌晨4:00發帖頻率降至最低。
圖4???“恐艾吧”論壇成員發帖時間分布
周一至周日的日內發帖時間分布規律大致相同,但也存在細微區別,如周六和周日論壇成員更傾向于在晚間發帖, 17:00—23:00的發帖頻率略高于周一至周五對應的該時間段,而9:00—17:00的發帖頻率略低于周一至周五對應的該時間段。
4.3 感染者與非感染者帖子話題差異分析
本文利用L DA話題模型分析“恐艾吧”論壇所有帖子涉及的話題。將“恐艾吧”論壇上的帖子劃分為10個話題,分別為檢測時間(話題0)、高危行為(話題1)、討論他人的帖子(話題2)、求醫問藥(話題3)、祝福檢測結果(話題4)、內心恐慌(話題5)、檢測方式(話題6)、恐懼抽血(話題7)、自身癥狀(話題8)、傷口接觸(話題9),選取每個話題中概率最大的12個詞表示該話題。
將“恐艾吧”論壇的主帖劃分為有HIV感染者參與討論的主帖和無HIV感染者參與討論的主帖,分別對兩種類型的主帖計算話題分布,然后取平均值,得出了兩種類型主帖的話題分布,如圖5所示。兩種類型主帖的大部分話題是相近的,差異較大的在話題3和話題4上,話題3的內容主要是求醫問藥,包括去醫院或中國疾病預防控制中心檢測以及獲取阻斷藥,話題4主要是對即將檢查或者即將出檢查結果的論壇成員的祝福,希望他們能拿到“陰性”的結果。在有HIV感染者參與討論的帖子里面,話題3和話題4的概率高出無HIV感染者參與討論的帖子一倍左右,他們的帖子更關注求醫問藥和檢測結果。
圖5???有HIV感染者參與和無HIV感染者參與的帖子話題概率分布
4.4 在線高危人群的性取向區分
測試集分類結果混淆矩陣見表1。為了量化分類器性能,本文使用精確率、召回率以及f1-score 3種指標評估第3.4節中訓練的邏輯回歸模型,該模型的3種評價指標的平均值均高于0.85,分類效果較好,見表2。在將該模型應用到整個數據集之前,使用該模型重新對800條標注數據進行訓練,使模型可以獲得更多的訓練數據,泛化能力更強。
使用邏輯回歸分類器對“恐艾吧”所有話題發起者的性取向進行劃分,約有55%的用戶無法判斷其性取向,同性戀用戶約為總用戶的6%。將無法判斷其性取向的用戶剔除,對其余用戶進行分析,分析結果如圖6所示。可以看出,在可以判斷性取向的用戶中,異性戀用戶約占86%,同性戀用戶較少,只占14%左右。根據已感染HIV的在線成員的信息,得到在每種性取向人群中感染HIV的概率(即流行率)。從圖6可以看出,MSM群體中HIV的流行率為3.08%,這與Wu等人在大規模調查后得到的結果(4.9%)比較接近。盡管同性戀成員較少,但同性戀群體中HIV流行率(3.08%)遠高于異性戀群體中的HIV流行率(0.06%),前者約是后者的50倍。在在線高危人群中,MSM是最主要的風險人群,他們感染HIV的概率遠遠高于其他人群。
圖6???“恐艾吧”話題發起者性取向預測及對應性取向人群中HIV的流行率
5 結束語
由于高危人群的隱蔽性,傳統的調查方法難以獲取大量統計樣本,且高危人群往往背負巨大的心理壓力,在面對傳統的調查時可能刻意隱瞞,導致傳統方法無法獲得準確的數據。本文通過獲取并分析在線高危人群的第一手數據,深入了解在線高危人群討論的話題,挖掘在線高危人群的在線活動時間規律,并通過LDA話題模型分析有HIV感染者參與討論的主帖和無HIV感染者參與討論的主帖之間的話題差異。為了進一步評估不同性取向對在線高危人群感染HIV的風險,本文使用一種基于關鍵詞的機器學習方法對“恐艾吧”中發布主帖的成員進行性取向預測,并根據預測結果計算不同性取向人群中HIV的流行率。
根據“恐艾吧”中在線高危人群表現出來的特點,筆者對公共衛生部門提出以下建議,以期促進我國對HIV傳播的管控:應加強對MSM人群的教育和宣傳,提升他們的艾滋病防護意識和自我保護意識,盡可能減少高危行為的發生;由于大部分高危人群發生高危行為后,不懂得通過及時服用阻斷藥避免自己被感染,或者沒有渠道及時獲取阻斷藥,耽誤了最佳阻斷時間,故應加強預防治療的宣傳以及提供暢通的阻斷藥購買渠道,避免發生因沒有及時阻斷而感染HIV的悲劇。
此外,在線數據也存在一定的不足。首先,部分HIV感染者在確診感染之后,會受到巨大的心理打擊,可能會將自己曾經發布的帖子刪除,這將導致筆者估計的HIV流行率偏低。其次,論壇上也可能存在用戶感染了HIV但并沒有發布關于感染HIV的主帖,或者由于沒有發布確診單等強有力的證明材料,而沒有被納入HIV感染者之列的情況,這也會導致筆者估計的流行率偏低。除此以外,由于部分在線論壇中用戶發表的內容信息量有限,沒有發表與其高危行為有關的內容,導致無法確定他們的性取向,也會使實驗結果產生偏差,導致性取向未知的用戶偏多,異性戀和同性戀用戶數目偏少。在今后的研究中,筆者將選擇更具真實性和代表性的開源數據作為研究數據。
作者簡介
肖時耀(1996- ),男,國防科技大學系統工程學院碩士生,主要研究領域為大數據分析。
呂慰(1985- ),男,湖南益陽康雅醫院腫瘤科主治醫師,主要研究領域為放射醫學。
陳灑然(1989- ),男,國防科技大學系統工程學院博士生,主要研究領域為復雜網絡理論、統計抽樣、數據挖掘。
秦爍(1995- ),女,國防科技大學系統工程學院碩士生,主要研究領域為復雜網絡傳播動力學。
黃格(1991- ),女,國防科技大學系統工程學院博士生,主要研究領域為大數據、復雜網絡。
蔡夢思(1992- ),女,國防科技大學系統工程學院博士生,主要研究領域為社交網絡、大數據。
譚躍進(1958- ),男,國防科技大學系統工程學院教授,主要研究領域為復雜網絡。
譚旭(1981- ),男,深圳信息職業技術學院軟件工程學院教授,主要研究領域為智能決策、機器學習、輿情分析。
呂欣(1984- ),男,國防科技大學系統工程學院副教授,主要研究領域為大數據、復雜網絡理論、應急 管理。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
基于深度學習的異構時序事件患者數據表示學習框架
人工智能在醫學影像中的研究與應用
基于數據挖掘的觸診成像乳腺癌智能診斷模型和方法
分布式數據庫在金融應用場景中的探索與實踐
共享單車運營分析及決策研究
總結
以上是生活随笔為你收集整理的基于百度贴吧的HIV高危人群特征分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者:夏帆(1988-),男,华东师范大
- 下一篇: P4 详解各硬件部分