Python爬虫学习二爬虫基础了解
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫学习二爬虫基础了解
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1.什么是爬蟲
爬蟲就是進(jìn)入網(wǎng)頁自動獲取數(shù)據(jù)的程序。當(dāng)它進(jìn)入一個網(wǎng)頁時,將網(wǎng)頁上需要的數(shù)據(jù)下載下來,并跟蹤網(wǎng)頁上的其他鏈接,進(jìn)入新的頁面下載數(shù)據(jù),并繼續(xù)跟蹤鏈接下載數(shù)據(jù)。
2.URL
URL,即統(tǒng)一資源定位符,也就是我們說的網(wǎng)址,統(tǒng)一資源定位符是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。互聯(lián)網(wǎng)上的每個文件都有一個唯一的 URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它
URL由三部分組成:資源類型、存放資源的主機(jī)域名、資源文件名。
也可認(rèn)為由4部分組成:協(xié)議、主機(jī)、端口、路徑
URL的一般語法格式為:
(帶方括號[]的為可選項):
protocol 😕/ hostname[:port] / path / [;parameters][?query]#fragment
總結(jié)
以上是生活随笔為你收集整理的Python爬虫学习二爬虫基础了解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux操作系统基础解析之(五)——g
- 下一篇: 『网易实习』周记(五)