Predicting Impending Exposure to Malicious Content from User Behavior
Predicting Impending Exposure to Malicious Content from User Behavior
- 摘要
- 知識點
- 研究點的提出
- 論文內容
- 相關工作
- 數(shù)據(jù)集
- HTTP 流量
- HTTP 日志處理
- 在線調查
- 實驗內容
- 惡意暴露
- self-report
- Session為單位下的暴露預測
- 創(chuàng)新點
- 困難點
CCS 2018
關鍵詞: malicious content on the web、HTTP流量
摘要
許多計算機安全防御都是被動的 - 它們僅在發(fā)生安全事件時或之后立即運行。最近的努力已經嘗試在安全事件發(fā)生之前對其進行預測,以使防御者能夠主動保護他們的設備和網絡。這些努力主要集中在長期預測上。我們提出了一種系統(tǒng),可以在單個瀏覽會話級別實現(xiàn)主動防御。通過觀察用戶行為,它可以預測他們是否會在暴露之前幾秒鐘暴露于網絡上的惡意內容,從而為主動防御打開機會之窗。我們使用2017年大型蜂窩網絡提供商的20,645名用戶生成的三個月的HTTP流量來評估我們的系統(tǒng),并表明它可以提供幫助,即使只有非常低的誤報率可以接受,并且盡管制作困難“即時”預測。我們還通過調查詢問人口統(tǒng)計和安全相關問題,直接與用戶聯(lián)系,評估自我報告數(shù)據(jù)用于預測惡意內容暴露的效用。我們發(fā)現(xiàn)自我報告的數(shù)據(jù)可以幫助預測長時間的暴露風險。然而,即使是長期的,自我報告的數(shù)據(jù)也不像準確預測暴露的行為測量那么重要。
知識點
研究點的提出
打開惡意網站帶來的安全隱患
- 傳統(tǒng):blacklists、nti-wiruses
論文內容
根據(jù)用戶行為來預測在接下來的時間是否會導致安全隱患發(fā)生
相關工作
移動惡意軟件在多大程度上構成實際威脅
數(shù)據(jù)集
GSB:google safe browsing v3
VirusTotal:combines blacklist
i-Filter filtering system
KDDI: 日本移動互聯(lián)網提供商
- HTTP流量
- 用戶調查 self-report
HTTP 流量
- 2017.4.1 - 2017.6.30 HTTP log:HTTP request時間戳、URL、HTTP refered、upload和download 字節(jié)數(shù)、UA、用戶ID
- 局限性:沒有HTTP內容(POST中send的內容)或HTTP requests,只包括http requests content-type:text/html;蜂窩網絡,沒有wifi流量
- 企業(yè)網絡使用“中間人”方式收集HTTPS流量
HTTP 日志處理
-
browsing session:由同一用戶進行的臨時連續(xù)的HTTP請求集
- 相關的用戶代理改變(表示用戶交換的瀏覽器)
- 用戶空閑 - 即不參與后續(xù)的HTTP請求 - 超過20分鐘
- session關閉 -
在測量期間每天下載GSB快照(GSB:phishing、walware URL)
-
GSB:釣魚 & 惡意urls:導致用戶下載惡意軟件或擴展程序,廣告和點擊欺詐頁面
-
Virus-Total:黑名單,繼續(xù)核對GSB中的分類
-
將HTTP請求分類(i-Filter filtering system )
在線調查
驗證用戶個人報道是否能預測他們的行為
- 邀請600000人收到23419回復
- 總結分布特點:性別、年齡、操作系統(tǒng)
- 提出幾個個人問題
實驗內容
惡意暴露
基于HTTP logs
問題:
- 方法:通過追溯檢查遙測數(shù)據(jù)中惡意軟件簽名的證據(jù),可以追溯到反病毒公司知道這些簽名之前的時間
- 檢查日志中在GSB數(shù)據(jù)集記錄之前的 url
- 評估網頁被GSB包含的時間
- 結論:有證據(jù)表明,在某些頁面被GSB標記為惡意的情況下,可能存在數(shù)天或數(shù)周的不可忽視的延遲。
3個月,負x表示網頁沒有包括在GSB數(shù)據(jù)集中,正表示包括
- 識別惡意:無法準確了解用戶何時被曝光。 我們知道用戶何時請求給定頁面,并且我們知道該頁面何時被GSB標記為惡意頁面;考慮用戶在時間t向URL u發(fā)出HTTP請求。如果它在任何時間t’出現(xiàn)在GSB數(shù)據(jù)庫中,則t被認為是惡意的,因此t≤t’<t +τ。 τ-malicious頁面是目前可能被標記為良性的網頁,但是(在τ內)將被標記為惡意網頁。 τ越小,危險性越高,因為頁面實際上已經惡意的概率隨著τ→0而增加。
- 結論:預測分類器不能完全依賴于先前的曝光,因為我們的用戶語料庫的很大一部分顯示缺乏“重復”曝光。
用戶暴露惡意網頁 request、session數(shù)量
根據(jù)τ的值,在三分之一到一半的暴露用戶之間只能訪問一個被視為惡意的頁面; 對于τ的正值,超過四分之一的用戶對惡意頁面發(fā)出三個或更多請求。 圖2表明,對于τ的正值,一半到三分之二的暴露用戶根據(jù)為τ選擇的值在單個會話內執(zhí)行所有暴露的請求; 其余部分顯示了長尾分布。 如圖所示,這種行為通常對于我們選擇的τ值的變化是穩(wěn)健的,盡管與圖1一致,τ= 0似乎過于保守。
計算出過去訪問過至少x次惡意頁面的暴露用戶將來訪問惡意頁面的概率
無論為τ選擇的值如何,未暴露的用戶通常每天要求的頁數(shù)遠遠少于暴露的用戶。 我們觀察到會話的類似趨勢 - 未曝光用戶參與的會話數(shù)量遠遠少于暴露用戶
Exposed users are more active than unexposed users— they make more HTTP requests, and engage in more, longer, browsing sessions.
Exposed users tend to browse the Internet more frequently at night and outside of working hours.
Certain categories of content may be indicative of higher risk exposure.
self-report
Q:我們能否根據(jù)調查回復對用戶的風險敞口建立有意義的見解?
建立logits 回歸模型利用report中的問題和是否暴露進行建模
(1)性別; (2)用戶設備上存在防病毒; (3)用戶是否從非官方市場下載應用程序; (4)用戶是否繼續(xù)瀏覽瀏覽器的警告; (5)用戶是否報告遭受妥協(xié); (6)RSeBIS主動意識得分(通過總結用戶對李克特量表問題的反應并歸一化到[0,1]范圍)。
Session為單位下的暴露預測
特征:
- session 長度/s
- HTTP request請求數(shù)
- 字節(jié)傳輸數(shù)量
- HTTP requests to 非Alexa 100000的數(shù)量
- 是否在周末
- 24小時(24個特征)
- 操作系統(tǒng)(6個):安卓 or IOS、Chrome or Safari、其他OS、 其他瀏覽器
- DNN
發(fā)現(xiàn)GSB在數(shù)據(jù)收集期間未標記的許多URL最終(即數(shù)周或數(shù)月之后)被GSB或VirusTotal [15]使用的其他列表標記為可能是惡意的
創(chuàng)新點
- 根據(jù)用戶行為對用戶是否會被暴露在惡意網頁而進行預測
- 深入理解暴露/非暴露用戶之間的行為差異
困難點
總結
以上是生活随笔為你收集整理的Predicting Impending Exposure to Malicious Content from User Behavior的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全球与中国汽车线性稳压器市场运营态势及产
- 下一篇: 第16章Stata面板数据分析