爬虫写得好,牢饭吃得早
爬蟲在互聯網時代并不稀奇,面對海量數據,人工獲取信息的效率低、時效性差,為了提升體驗很多公司都會開發爬蟲系統。但是,爬蟲寫得好,牢飯吃得早。
來自 2018 年的公開案例:
某公司 2017 年轉型做互聯網科技公司,主營業務是“助貸”,需要經常訪問政府居住證網站,查詢房產地址、房屋編碼和學區房的使用情況。公司產品組經討論后建議用爬蟲自動查詢相關數據。
2017年12月,CTO 安排新入職的程序員負責這個項目,要求他研發一個自動定時抓取的爬蟲。
2018年1月,項目經理給程序員一個抓取數據的程序源代碼,程序員開始修改。
2018年3月,爬蟲上線,可以從公安局居住證系統查詢到房產地址、房屋編碼等對應的資料。
2018年4月27日10:43-12:00左右,居住證系統出現宕機現象,未定位到請求IP來源,懷疑是人為攻擊。
2018年5月2日10:00-12:00左右,系統再次遭遇攻擊,這次管理人員成功截取了IP地址并報案。
2018年5月17日晚上11點,CTO、程序員得知網警鎖定服務器 IP,程序員懷疑是居住證系統加了驗證碼但爬蟲未更新,導致爬蟲被判斷為攻擊行為。
2018年8月,CTO、程序員被捕,后續 CTO 被判處有期徒刑三年,程序員被判處有期徒刑一年六個月。
我也曾在某金融公司開發過爬蟲,幫助用戶從銀行、基金公司、郵箱等多個渠道爬取信用卡、基金交易記錄,然后形成賬單和分析數據供用戶參考。近幾年看了不少因為開發爬蟲被判刑的案例,獨自慶幸及早抽身,已離開爬蟲團隊數年。
2019 年 9 月,江蘇淮安于某伙同王某合謀開發爬蟲網站,爬取個人借貸信息、身份證照片信息等達 84 萬余次,分別被判處有期徒刑四年、有期徒刑一年六個月,并處罰金。
2021 年 5 月,上海某信息科技公司員工劉某等 12 人因爬取各類網站、社保、公積金、手機App等網絡上的個人數據信息 308萬余條用于開展“征信業務”,其中 8 人被判處有期徒刑三年,緩刑三年至有期徒刑一年,緩刑一年不等,各并處罰金3萬元至1萬元不等。該團伙中的戴某等其余4人還在審理中。
2021 年 6 月,河南商丘兩人通過開發爬蟲軟件爬取淘寶客戶數字 ID、手機號等信息共計 11.8 億條用于開展淘寶推廣賺傭金,一審均被判處有期徒刑三年以上。
本文第一個案例中,CTO 辯解說爬取的是公開信息且沒有個人信息、沒有出售或交換、沒有通過數據牟利,而且爬蟲是公司管理層決定開發、由技術部程序員實施開發,是公司工作任務。程序員辯解說項目經理給的源代碼不知道是誰開發的,修改爬蟲程序是工作任務僅用于公司業務,本人并未牟利,而且開發完成后就沒有繼續修改了,攻擊行為猜測是沒有處理驗證碼導致的。但法院最終判決為 CTO 被判處有期徒刑三年,程序員被判處有期徒刑一年六個月,其他人員無責。
并不是所有的爬蟲都違法,被爬信息完全公開,內容中不涉及個人信息、版權內容及數據資產的,爬蟲頻率適當不會影響被爬網站正常響應的,一般來說,都是合法合規的爬蟲行為。同時也要注意,爬蟲合規也不代表業務合規,如果業務違規一樣會追究責任。
爬蟲一般都偽造 UA,可能會成為起訴證據,在今日頭條爬蟲案件當中,檢察院和法院,就以偽造UA作為定罪證據。部分情況下,爬蟲使用代理也可能會涉嫌非法繞過防護。爬到的數據也要定期清理,以免被抓時公安固定證據,發現還有別的案件來個并案處理、數罪并罰。
比較嚴重的情況,最高法、最高檢在《關于辦理危害計算機信息系統安全刑事案件應用法律若干問題的解釋》中有明確解釋,簡單來說就是:
- 未經授權獲取對方數據,可能會涉嫌“非法獲取計算機信息系統數據”,也規定了“后果特別嚴重”的認定;
- 造成對方系統不可用,可能涉嫌破壞計算機信息系統罪,而且可能被認定“后果特別嚴重”;
最高法、最高檢的規定看起來更像是黑客犯罪,但是,由于專業背景和立場不同,公檢法對技術的理解與程序員未必一致,仍然有部分地區法院以此作為罪名判決。爬蟲出了問題,對方網站肯定是受害者,總要有個被告來負責,你說會是誰呢?
如果必須要做爬蟲,記得找法務同學正規審批,做好風險隔離。要是沒有法務參與,早點 run 吧!
爬蟲寫得好,牢飯吃得早 - 程序之心
總結
以上是生活随笔為你收集整理的爬虫写得好,牢饭吃得早的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何将caj转换成word
- 下一篇: 关于九宫格的一个算法,求大神助攻