爬虫学习笔记1:爬虫基本概念
本文目錄
- 1平時我們接觸到的爬蟲
- 2對爬蟲的概念
- 3通用爬蟲和聚焦爬蟲
- 4http和https協議
- 5瀏覽器中發送一個http請求的過程
- 6有關url
- 7一般的請求方法
- 8常見的狀態響應碼
1平時我們接觸到的爬蟲
搜索引擎(百度、谷歌、360搜索等)。
數據分析與研究。
搶票軟件等。
2對爬蟲的概念
通俗理解:爬蟲程序是一個模擬人類請求網站行為的程序。它可以自動請求網頁并捕獲數據,然后使用某些規則提取有價值的數據
定義:網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
3通用爬蟲和聚焦爬蟲
通用爬蟲:通用爬蟲是搜索引擎捕獲系統(百度、谷歌、搜狗等)的重要組成部分。它主要將互聯網上的網頁下載到本地,形成互聯網內容的鏡像備份。
聚焦爬蟲:這是一個針對特定需求的網絡爬蟲程序。它與普通爬蟲的區別在于,焦點爬蟲在實現網頁捕獲時會對內容進行過濾和處理,并嘗試確保只捕獲與需求相關的網頁信息。
4http和https協議
HTTP(HyperText Transfer Protocol)協議:全稱為超文本傳輸協議,中文為超文本傳輸協議。它是一種發布和接收HTML頁面的方法。服務器端口號為端口80。HTTPS協議:它是HTTP協議的加密版本。SSL層添加在http下。服務器端口號為端口443。
5瀏覽器中發送一個http請求的過程
1當用戶在瀏覽器的地址欄中輸入URL并按enter鍵時,瀏覽器將向HTTP服務器發送HTTP請求。HTTP請求主要分為“get”和“post”方法。
2當我們在瀏覽器中輸入URL時,瀏覽器發送請求以獲取URL的HTML文件,服務器將響應文件對象發送回瀏覽器。
3.瀏覽器分析響應中的HTML,發現許多其他文件被引用,如圖像、CSS和JS文件。瀏覽器將自動再次發送請求以獲取圖像、CSS文件或JS文件。
當所有文件下載成功后,網頁將完全按照HTML語法結構顯示。
6有關url
URL是Uniform Resource Locator的簡寫,統一資源定位符。 一個URL由以下幾部分組成:
scheme://host:port/path/?query-string=xxx#anchor- scheme:是訪問的協議,一般為http或者https以及ftp等。
- host:主機名,域名,比如www.CSDN.com。
- port:端口號。當你訪問一個網站的時候,瀏覽器默認使用80端口。
- path:查找路徑。比如:www.CSDN.com/A/B,后面的A/B就是path。
- query-string:查詢字符串,比如:www.CSDN.com/s?wd=python,后面的wd=python就是查詢字符串。
- anchor:錨點,后臺一般不用管,前端用來做頁面定位的。
- 在瀏覽器中請求一個url,瀏覽器會對這個url進行一個編碼。除英文字母,數字和部分符號外,其他的全部使用百分號+十六進制碼值進行編碼。
7一般的請求方法
在HTTP協議中,向服務器發送請求。數據分為三部分。第一個是將數據放在URL中,第二個是將數據放在body中(在post請求中),第三個是將數據放在頭部(head)。以下是web爬蟲中常用的一些請求頭參數:
用戶代理(User-Agent):瀏覽器名稱。這通常用于網絡爬蟲。請求網頁時,服務器可以通過此參數知道哪個瀏覽器發送了請求。如果我們通過爬蟲發送請求,我們的用戶代理(User-Agent)是python,它可以很容易地確定您的請求是具有反爬蟲機制的網站的爬蟲。因此,我們應該經常將該值設置為某些瀏覽器的值,以偽裝我們的爬蟲。
Referer:指示當前請求來自的URL。這也可以用作反爬蟲技術。如果不是來自指定頁面,則不會做出相關響應。
Cookie:HTTP協議是無狀態的。也就是說,同一個人發送兩個請求,而服務器無法知道這兩個請求是否來自同一個人。因此,此時使用cookie作為標識。通常,如果你想成為一個只有在登錄后才能訪問的網站,你需要發送cookie信息。
8常見的狀態響應碼
200:請求正常,服務器返回數據正常。
301:永久重定向。例如,當您訪問www.A.com時,您將被重定向到www.B.com。
302:臨時重定向。例如,當您訪問一個需要登錄的頁面,而此時您沒有登錄時,您將被重定向到登錄頁面。
400:在服務器上找不到請求的URL。換句話說,請求URL是錯誤的。
403:服務器拒絕訪問,權限不足。
500:服務器內部錯誤。服務器上可能有錯誤。
總結
以上是生活随笔為你收集整理的爬虫学习笔记1:爬虫基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机顶盒App安装在sd卡的目录
- 下一篇: (三)碳排放如何计算