爬虫学习日记 Day1 什么是request,respond,url,headers
注:這些知識只是必要的前件知識,沒有必要打破沙鍋問到底,只需了解即可
前件知識:
1.request和respond
request是爬蟲向互聯網發送請求,respond是互聯網對爬蟲的回應。
在我們實際對一個頁面的操作就是這一步:
按下一個按鍵(google搜索關鍵詞從而搜索內容)------>互聯網對用戶操作進行反饋,網頁把源代碼進行編譯,產生圖形界面讓用戶觀看。
用戶輸入 ,向互聯網發送請求
互聯網對用戶請求的響應
?如圖
?對網頁源代碼進行編譯解釋,形成我們想要的網頁
?
2.URL與Headers
?而我們要給爬蟲做的,就是模擬人類用戶的過程。
headers的意思是請求頭,在網頁中,存在反爬機制,避免爬蟲機器人去爬取數據,其中headers之中的User-Agent算一個
我們右鍵inspect(或者F12)就可以找到它。?
用戶在瀏覽器的操作User-Agent就是瀏覽器內核和用戶操作系統的信息。
而如果使用爬蟲,User-Agent則為使用爬蟲的python信息。
網頁通過檢測User-Agent來檢測是否為機器人爬蟲。
回歸正題,為了避免網頁把我們的爬蟲檢測到,我們可以通過偽裝成普通用戶訪問的操作。
操作步驟是:
headers = {'User-Agent':'User-Agent大全'}記住格式就行,Google去搜索user-agent大全即可。注意這里格式一個都不能錯。大小寫,單引號,冒號必須為英文格式
URL是什么呢:
簡單點理解,它就是一個地址
?爬蟲不可能像用戶一樣敲擊回車或者按搜索鍵,所以我們需要信息URL地址,有了地址,我們就可以通過爬蟲去訪問。
我們學習了一些前件概念,什么是url,headers,request和respond是什么意思,這些只需了解即可,不必打破沙鍋問到底,我們下一篇文章再見。
總結
以上是生活随笔為你收集整理的爬虫学习日记 Day1 什么是request,respond,url,headers的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在腾讯云开通短信验证服务设置正确格式的签
- 下一篇: @NotBlank注解使用不生效的解决办