scrapy爬取某宝心得
1.可以通過下面代碼設置延時(是隨機的延時:數值的0.5~1.5倍,比如設置為10,會延時(5-15秒)
2.from scrapy.http import Request, FormRequest
FormRequest繼承自Request,它可以在請求訪問網頁時,上傳賬號密碼等參數
比如(賬號密碼等信息保存在formdata里面):
3.在學習爬取淘寶商品信息時,僅上傳賬號密碼是沒用的,還需要阿里的st碼
流程:淘寶驗證用戶名和密碼,驗證通過生成一個token,瀏覽器拿著token去阿里(alibaba.com)申請單點登錄碼(st碼)(st碼的目的是實現單點登錄,使得用戶只需要在一個應用里登錄后,就可以在其他相互信任的應用里免登錄使用)
下面圖片參考自:https://blog.csdn.net/u014044812/article/details/99584382
參考:單點登錄
(淘寶登錄流程:爬取信息需要模擬這些流程,其實不復雜,只需要提交用戶名,ua參數,然后根據taobao的返回信息判斷是否需要滑塊驗證(一般不需要),知道不需要驗證后,就使用包括用戶名,ua參數,加密后的密碼(TPL_password2)在內的信息去taobao獲得st碼地址,然后通過地址訪問阿里去獲得st碼,然后攜帶st碼發送一個請求到服務器即可獲取cookie,然后登錄。這里每一個請求都可以FormRequest庫完成。)
4.頁面返回的數據可能不是純json數據,有可能嵌入到了網頁里面,比如:
總結
以上是生活随笔為你收集整理的scrapy爬取某宝心得的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jenkins-pipline-agen
- 下一篇: CCNA2.0笔记_STP