python爬虫之数据提取Xpath(爬取起点中文网案例)
Xpath
詳細(xì)的Xpath介紹手冊(cè)——> https://www.w3school.com.cn/xpath/index.asp
1.安裝xpath.
pip install lxml
2.安裝谷歌XPath插件
下載:chrome_Xpath_v2.0.2.crx 格式的文件。拖進(jìn)插件即可。
如果安裝不成功,將后綴名改成.rar,解壓以后再拖拽進(jìn)去就可以使用了。
效果圖(減頭所指的地方就可以打開XPath):
3.介紹
Xpath是在一門在XML文檔種查找信息的語言。XPath可用來在XML文檔種對(duì)元素和屬性進(jìn)行遍歷,XPath是W3C XSLT標(biāo)準(zhǔn)的主要元素,并且XQuery和XPointer都構(gòu)建于XPath表達(dá)之上。
4.節(jié)點(diǎn)的關(guān)系
- 父(Parent)
- 子(Children)
- 同胞(Sibling)
- 先輩(Ancestor)
- 后代(Descendant)
一、選取節(jié)點(diǎn)
1.常用的路徑表達(dá)式
2.通配符
XPath通配符可用來選取未知的XML元素:
3.選取若干路徑
4.謂語
謂語被嵌在方括號(hào)內(nèi),用來查找某個(gè)特定的節(jié)點(diǎn)或包含某個(gè)指定的值的節(jié)點(diǎn)。
5.XPath運(yùn)算符
二、案例
爬取起點(diǎn)中文網(wǎng),排行里面小說的名稱和作者。
首先要明確要什么:
再用我們下載的谷歌XPath,找到相應(yīng)的位置:
再找到作者的位置:
這樣就提取到了我們想要的東西。
代碼:
先導(dǎo)入庫和獲取頁面:
from lxml import etree import requests from fake_useragent import UserAgent url = "https://www.qidian.com/rank/yuepiao?chn=-1" headers = {"User-Agent":UserAgent().random}response = requests.get(url,headers)e = etree.HTML(response.text)利用XPath獲取標(biāo)題:
names = e.xpath('//h4/a/text()') names
獲取作者信息:
將書名和作者一一對(duì)應(yīng):
總結(jié)
以上是生活随笔為你收集整理的python爬虫之数据提取Xpath(爬取起点中文网案例)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 二、博客首页完成《iVX低代码仿CSDN
- 下一篇: 「 SLAM lesson-2.3 」S