Python反爬机制介绍
生活随笔
收集整理的這篇文章主要介紹了
Python反爬机制介绍
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一.UA檢測與UA偽裝
UA.User-Agent(請求載體的身份標識)
UA檢測:.門戶網站的服務器會檢測對應請求的載體身份標識.如果檢測到請求的載體身份標識為某一款瀏覽器,說明該請求是一個正常的請求,但是如果檢測到請求的載體體身份標識不是基于某一款瀏覽器的.則表示該請求不是正常的請求(爬蟲),則會拒絕該請求
UA偽裝:.讓爬蟲對應的請求載體身分標識偽裝成某一款瀏覽器
寫以下兩行代碼即可
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0'} response = requests.get(url=url,params=param,headers=headers) # coding=UTF-8 import sys reload(sys) sys.setdefaultencoding('utf8') import requests if __name__ == '__main__':#UA偽裝:將對應的User-Agent封裝到一個字典中headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0'}#處理url攜帶的參數:封裝到字典中url='https://www.sogou.com/web?'kw=raw_input('你想要爬取什么:')param={'query':kw}#對指定的urL發起的請求對應的url是攜帶參數的,并且請求過程中處理了參數response = requests.get(url=url,params=param,headers=headers)page_text = response.textfileName = kw+'.html'with open(fileName.decode('utf-8'),'w') as fp:fp.write(page_text)print (fileName,'保存成功!!!')總結
以上是生活随笔為你收集整理的Python反爬机制介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python报错UnicodeEncod
- 下一篇: python爬虫学习(二) 简易网页爬取