當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫之数据提取Xpath（爬取起点中文网案例）

發(fā)布時(shí)間：2023/12/14 python 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫之数据提取Xpath（爬取起点中文网案例）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Xpath

詳細(xì)的Xpath介紹手冊(cè)——> https://www.w3school.com.cn/xpath/index.asp

1.安裝xpath.
pip install lxml

2.安裝谷歌XPath插件
下載：chrome_Xpath_v2.0.2.crx 格式的文件。拖進(jìn)插件即可。
如果安裝不成功，將后綴名改成.rar，解壓以后再拖拽進(jìn)去就可以使用了。

效果圖（減頭所指的地方就可以打開XPath）：

3.介紹
Xpath是在一門在XML文檔種查找信息的語言。XPath可用來在XML文檔種對(duì)元素和屬性進(jìn)行遍歷，XPath是W3C XSLT標(biāo)準(zhǔn)的主要元素，并且XQuery和XPointer都構(gòu)建于XPath表達(dá)之上。

4.節(jié)點(diǎn)的關(guān)系

父（Parent）
子（Children）
同胞（Sibling）
先輩（Ancestor）
后代（Descendant）

一、選取節(jié)點(diǎn)

1.常用的路徑表達(dá)式

2.通配符
XPath通配符可用來選取未知的XML元素：

3.選取若干路徑

4.謂語
謂語被嵌在方括號(hào)內(nèi)，用來查找某個(gè)特定的節(jié)點(diǎn)或包含某個(gè)指定的值的節(jié)點(diǎn)。

5.XPath運(yùn)算符

二、案例

爬取起點(diǎn)中文網(wǎng)，排行里面小說的名稱和作者。

首先要明確要什么：

再用我們下載的谷歌XPath，找到相應(yīng)的位置：

再找到作者的位置：

這樣就提取到了我們想要的東西。

代碼:

先導(dǎo)入庫和獲取頁面：

from lxml import etree import requests from fake_useragent import UserAgent url = "https://www.qidian.com/rank/yuepiao?chn=-1" headers = {"User-Agent":UserAgent().random}response = requests.get(url,headers)e = etree.HTML(response.text)

利用XPath獲取標(biāo)題：

names = e.xpath('//h4/a/text()') names

獲取作者信息：

authors = e.xpath('//p[@class="author"]/a[1]/text()') authors

將書名和作者一一對(duì)應(yīng)：

a = [] for name in zip(names,authors):a.append(name)a

總結(jié)

以上是生活随笔為你收集整理的python爬虫之数据提取Xpath（爬取起点中文网案例）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：二、博客首页完成《iVX低代码仿CSDN
下一篇：「 SLAM lesson-2.3 」S