爬虫非专业八级模拟考试
點擊“小詹學Python”,選擇“置頂”公眾號
重磅干貨,第一時間送達
本文轉載自麻瓜編程
爬蟲非專業八級考試,
我就不信有滿分飄過的學霸!
請聽題:
點擊下方空白區域查看答案
▼
正確答案 B
最大的爬蟲就是搜索引擎。Google作為世界上最大的搜索引擎,其爬蟲流量也遙遙領先于其他各類搜索引擎爬蟲,占所有爬蟲流量的3.87%
點擊下方空白區域查看答案
▼
正確答案 C
企業工商注冊信息不是個人數據,數據來源都是國家公示網站,所公示內容是依法公開的內容。
對于敏感的個人信息,比如爬取社保、身份證號、淘寶交易記錄,是違法的。
點擊下方空白區域查看答案
▼
正確答案 A
數據來自淺黑科技:關于爬蟲,這里有一份《中國焦慮圖鑒》
點擊下方空白區域查看答案
▼
正確答案 C
使用打碼平臺是最快解決問題的方法
點擊下方空白區域查看答案
▼
正確答案 B
經過分析,發現迷之字符規律的出現在?span?標簽內,所以就把?span?標簽的內容干掉好了。
點擊下方空白區域查看答案
▼
正確答案 C
美團這里用到的是?background?拼湊。數字其實是圖片,根據不同的background偏移,顯示出不同的字符。
既然人眼可以看出數字是多少,那么程序也可以識別。可以用?tesseract-ocr?進行圖片識別。
點擊下方空白區域查看答案
▼
正確答案 B
這里去哪兒的策略是先用四個i標簽渲染,再用兩個b標簽去絕對定位偏移量,覆蓋故意展示錯誤的i標簽,最后在視覺上形成正確的價格。
找到規律,根據元素偏移量去計算正確的數字和位數,替換掉錯誤的價格即可。
點擊下方空白區域查看答案
▼
正確答案 AC
使用?Selenium?+?chromedriver?或者抓?API?接口都可以,這里不推薦?PhantomJS?是因為框架不再維護了。但可能一些老的教程還在用。
點擊下方空白區域查看答案
▼
正確答案 AB
抓包?mitmproxy?或者?APK?反編譯都可以。Requests?肯定是請求不到的了。
10.?簡答題:這張圖還可以再往下補充的進攻和防守輪回是什么?
點擊下方空白區域查看答案
▼
參考答案
其實可以補充的有很多了,真實世界比這張圖復雜很多,在這里提供兩個思路:
一輪:
反爬的防守:識別出來selenium爬蟲,進行數據投毒,給假數據。
爬取的進攻:Android模擬器,模擬正常用戶,或者再換一個http?client
又一輪:
爬取的進攻:模擬正常用戶行為,點擊其他功能或者頁面
反爬的防守:爬取的限速限流
考試結束~大家們考的怎么樣?每道題10分,滿分100分,你能得多少分呢?
推薦閱讀
不會代碼,如何用wordpress搭建一個個人博客?
總結
以上是生活随笔為你收集整理的爬虫非专业八级模拟考试的全部內容,希望文章能夠幫你解決所遇到的問題。