blob字段乱码怎么处理_金九银十,你准备好了吗?没点Python面试题干货怎么行?(一)...
職場人沒有不知道:金三銀四,金九銀十 的說法兒吧,今天干貨奉上,100個Python面試高頻題目。
一. 遇到過得反爬蟲策略以及解決方法?
1.通過headers反爬蟲
2.基于用戶行為的發爬蟲:(同一IP短時間內訪問的頻率)
3.動態網頁反爬蟲(通過ajax請求數據,或者通過JavaScript生成)
4.對部分數據進行加密處理的(數據是亂碼)
解決方法:
對于基本網頁的抓取可以自定義headers,添加headers的數據
使用多個代理ip進行抓取或者設置抓取的頻率降低一些,
動態網頁的可以使用selenium + phantomjs 進行抓取
對部分數據進行加密的,可以使用selenium進行截圖,使用python自帶的pytesseract庫進行識別,但是比較慢最直接的方法是找到加密的方法進行逆向推理。
二. urllib 和 urllib2 的區別?
- urllib 和urllib2都是接受URL請求的相關模塊,但是urllib2可以接受一個Request類的實例來設置URL請求的headers,urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。
- urllib提供urlencode()方法用來GET查詢字符串的產生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。
三. 列舉網絡爬蟲所用到的網絡數據包,解析包?
- 網絡數據包 urllib、urllib2、requests
- 解析包 re、xpath、beautiful soup、lxml
四. 簡述一下爬蟲的步驟?
五. 遇到反爬機制怎么處理?
反爬機制:
headers方向
判斷User-Agent、判斷Referer、判斷Cookie。
將瀏覽器的headers信息全部添加進去
注意:Accept-Encoding;gzip,deflate需要注釋掉
六. 常見的HTTP方法有哪些?
- GET:請求指定的頁面信息,返回實體主體;
- HEAD:類似于get請求,只不過返回的響應中沒有具體的內容,用于捕獲報頭;
- POST:向指定資源提交數據進行處理請求(比如表單提交或者上傳文件),。數據被包含在請求體中。
- PUT:從客戶端向服務端傳送數據取代指定的文檔的內容;
- DELETE:請求刪除指定的頁面;
- CONNNECT:HTTP1.1協議中預留給能夠將連接方式改為管道方式的代理服務器;
- OPTIONS:允許客戶端查看服務器的性能;
- TRACE:回顯服務器的請求,主要用于測試或者診斷。
七. 說一說redis-scrapy中redis的作用?
它是將scrapy框架中Scheduler替換為redis數據庫,實現隊列管理共享。
優點:
八. 遇到的反爬蟲策略以及解決方法?
九. 如果讓你來防范網站爬蟲,你應該怎么來提高爬取的難度 ?
十. scrapy分為幾個組成部分?分別有什么作用?
分為5個部分;Spiders(爬蟲類),Scrapy Engine(引擎),Scheduler(調度器),Downloader(下載器),Item Pipeline(處理管道)。
- Spiders:開發者自定義的一個類,用來解析網頁并抓取指定url返回的內容。
- Scrapy Engine:控制整個系統的數據處理流程,并進行事務處理的觸發。
- Scheduler:接收Engine發出的requests,并將這些requests放入到處理列隊中,以便之后engine需要時再提供。
- Download:抓取網頁信息提供給engine,進而轉發至Spiders。
- Item Pipeline:負責處理Spiders類提取之后的數據。
- 比如清理HTML數據、驗證爬取的數據(檢查item包含某些字段)、查重(并丟棄)、將爬取結果保存到數據庫中
接下來的面試題也會繼續為大家更新!伙伴們有補充的,歡迎下方留言哈!
總結
以上是生活随笔為你收集整理的blob字段乱码怎么处理_金九银十,你准备好了吗?没点Python面试题干货怎么行?(一)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 北城换乘中心发往沂水的班车途经哪里?
- 下一篇: ide 波浪线_零基础学习Python_