當前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫代码优化：使用生成器重构提取数据方法

發布時間：2025/3/20 python 10 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫代码优化：使用生成器重构提取数据方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

在剛開始學習python的時候，有看到過迭代器和生成器的相關內容，不過當時并未深入了解，更談不上使用了，其實是可以用生成器來改造一下的，所以本次就使用生成器來優化一下爬蟲代碼

生成器函數與普通函數的區別是，生成器用關鍵字 yield 來返回值，而普通函數用 return 一次性返回值；

當你調用生成器函數的時候，函數內部的代碼并不立馬執行，這個函數只是返回一個生成器對象；

一般使用for循環迭代生成器對象來獲取具體的返回值

什么時候可以使用生成器呢？

一般爬蟲經常會通過for循環來迭代處理數據，例如我之前爬取20頁數據時，會先把獲得的數據存儲到一個列表或字典中，然后再把整個列表或字典 return 出去，然后保存數據至本地又會再調用這個列表獲取數據（其實做了2步：先把頁面的數據提取出來存到列表，后面用的時候再迭代列表）；

類似這種直接使用列表或字典來存儲數據，其實是先存儲到了內存中，如果數據量過大的話，則會占用大量內存，這樣顯然是不合適的；

此時就可以使用生成器，我們每提取一條數據，就把該條數據通過 yield 返回出去，好處是不需要提前把所有數據加載到一個列表中，而是有需要的時候才給它生成值返回，沒調用這個生成器的時候，它就處于休眠狀態等待下一次調用

優化爬蟲代碼

首先看一下未使用生成器的代碼

# -*- coding:utf-8 -*- ''' 遇到問題沒人解答？小編創建了一個Python學習交流QQ群：778463939 尋找有志同道合的小伙伴，互幫互助,群里還有不錯的視頻學習教程和PDF電子書！ ''' import requests from requests.exceptions import RequestException import os, time from lxml import etreedef get_html(url):"""獲取頁面內容"""response = requests.get(url, timeout=15)# print(response.status_code)try:if response.status_code == 200:# print(response.text)return response.textelse:return Noneexcept RequestException:print("請求失敗")# return Nonedef parse_html(html_text):"""解析一個結果頁的內容，提取圖片url"""html = etree.HTML(html_text)if len(html) > 0:img_src = html.xpath("//img[@class='photothumb lazy']/@data-original") # 提取圖片url，通過xpath提取會生成一個列表# print(img_src)return img_src # 將提取出來的圖片url列表返回出去else:print("解析頁面元素失敗")def get_all_image_url(depth):"""提取所有頁面的所有圖片url:param depth: 爬取頁碼:return:"""base_url = 'https://imgbin.com/free-png/naruto/' # 定義初始urlimage_urls = []for i in range(1, depth):url = base_url + str(i) # 根據頁碼遍歷請求urlhtml = get_html(url) # 解析每個頁面的內容# print(html)if html:list_data = parse_html(html) # 提取頁面中的圖片urlfor img in list_data:image_urls.append(img)return image_urlsdef get_image_content(url):"""請求圖片url，返回二進制內容"""try:r = requests.get(url, timeout=15)if r.status_code == 200:return r.contentreturn Noneexcept RequestException:return Nonedef main(depth=None):"""主函數，下載圖片:param depth: 爬取頁碼:return:"""j = 1img_urls = get_all_image_url(depth) # 提取頁面中的圖片urlroot_dir = os.path.dirname(os.path.abspath('.'))save_path = root_dir + '/pics/' # 定義保存路徑# print(img_urls)# print(next(img_urls))# print(next(img_urls))for img_url in img_urls: # 遍歷每個圖片urltry:file_path = '{0}{1}.{2}'.format(save_path, str(j), 'jpg')if not os.path.exists(file_path): # 判斷是否存在文件，不存在則爬取with open(file_path, 'wb') as f:f.write(get_image_content(img_url))f.close()print('第{}個文件保存成功'.format(j))else:print("第{}個文件已存在".format(j))j = j + 1except FileNotFoundError as e:print("遇到錯誤：", e)continueexcept TypeError as f:print("遇到錯誤：", f)continueif __name__ == '__main__':start = time.time()main(2)end = time.time()print(end-start)

parse_html()函數：它的作用解析一個結果頁的內容，提取一頁的所有圖片url（通過xpath提取，所以數據時存儲在一個列表中），可以把它改造為生成器；
get_all_image_url()函數：調用parse_html()函數，通過控制爬取頁碼，提取所有頁面的所有圖片url，然后存到一個列表中返回出去，可以改造為生成器；
main()函數：調用get_all_image_url()函數得到所有圖片url的列表，然后迭代這個列表，來得到每一個圖片url來下載圖片

接下來要做的就是改造 parse_html()函數和 get_all_image_url()函數

這個其實也比較簡單，只需要把原本要追加到列表中的東西通過 yield 關鍵字返回出去就行了

parse_html()函數：

''' 遇到問題沒人解答？小編創建了一個Python學習交流QQ群：778463939 尋找有志同道合的小伙伴，互幫互助,群里還有不錯的視頻學習教程和PDF電子書！ ''' def parse_html(html_text):"""解析一個結果頁的內容，提取圖片url"""html = etree.HTML(html_text)if len(html) > 0:img_src = html.xpath("//img[@class='photothumb lazy']/@data-original")# print(img_src)for item in img_src:yield item

get_all_image_url()函數

def get_all_image_url(depth):"""提取所有頁面的所有圖片url:param depth: 爬取頁碼:return:"""base_url = 'https://imgbin.com/free-png/naruto/' # 定義初始urlfor i in range(1, depth):url = base_url + str(i) # 根據頁碼遍歷請求urlhtml = get_html(url) # 解析每個頁面的內容# print(html)if html:list_data = parse_html(html) # 提取頁面中的圖片urlfor img in list_data:yield img # 通過yield關鍵字返回每個圖片的url地址

然后上面代碼中有個地方需要注意

for i in range(1, depth): 這個for循環，是迭代爬取頁碼

list_data = parse_html(html)：調用parse_html()函數，獲取每一頁內容的生成器對象

for img in list_data: 迭代 list_data，然后通過yield img 把值返回出去

get_all_image_url()函數還可以用以下方式返回結果

''' 遇到問題沒人解答？小編創建了一個Python學習交流QQ群：778463939 尋找有志同道合的小伙伴，互幫互助,群里還有不錯的視頻學習教程和PDF電子書！ ''' def get_all_image_url(depth):"""提取所有頁面的所有圖片url:param depth: 爬取頁碼:return:"""base_url = 'https://imgbin.com/free-png/naruto/' # 定義初始urlfor i in range(1, depth):url = base_url + str(i) # 根據頁碼遍歷請求urlhtml = get_html(url) # 解析每個頁面的內容# print(html)if html:list_data = parse_html(html) # 提取頁面中的圖片urlyield from list_data

使用關鍵字 yield from 替代了之前的內層for循環，可以達到相同的效果（具體含義可以查看 Python yield from 用法詳解、yield from）

main()函數不需要作改動，因為我們在調用生成器對象時，也是通過for循環來提取里面的值的，所以這部分代碼和之前一樣

OK，本次代碼優化到此結束，python有太多東西要學啦，感覺自己懂得還是太少，要保持學習的心態，加油~

總結

以上是生活随笔為你收集整理的python爬虫代码优化：使用生成器重构提取数据方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python:关于py文件之间相互imp
下一篇： python 使用 requests 做

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python爬虫代码优化：使用生成器重构提取数据方法

總結