图集谷-写真集-爬虫-2.0
生活随笔
收集整理的這篇文章主要介紹了
图集谷-写真集-爬虫-2.0
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
經過,對上一版爬蟲的仔細研究,我換了一個編寫思路,寫了這個2.0版本。
依然廢話不多說,直接上代碼。
# 導入庫
import os, time, requests
# 請求頭
headers = {
'User-Agent': 'Chrome 10.0'
}
# 圖片數據列表
pictures = []
# 獲取圖片數據
def get_pic(url, nums):
for num in range(0, int(nums)):
url_all = str(url) + f'{str(num)}.jpg'
res = requests.get(url=url_all, headers=headers)
pic_content = res.content
pictures.append(pic_content)
time.sleep(0.5)
# 創建目的文件夾
def get_path(path_name):
if not os.path.exists(f'C:/Users/liu/Desktop/圖集/{path_name}'):
os.mkdir(f'C:/Users/liu/Desktop/圖集/{path_name}')
else:
pass
# 保存圖片數據
def save_data():
for pic,i in zip(pictures, range(int(Num))):
picture = open(f'C:/Users/liu/Desktop/圖集/{str(Page_Num)}/{str(i)}.jpg', 'wb')
picture.write(pic)
picture.close()
# 主程序入口
if __name__ == '__main__':
Page_Num = input('Enter the Page_name:') # Page_Num指下文url所代指的數字
Num = int(input('Enter the Num:')) + 1 # Num為寫真集的圖片數
url = f'https://tjg.gzhuibei.com/a/1/{str(Page_Num)}/' #
get_path(path_name=Page_Num)
get_pic(url=url, nums=Num)
save_data()
print('Finish!')
在編寫的第一版爬蟲的過程中,我發現可以通過算從而確定每張圖片的url。因此,在第二版中,我省去了對lxml庫的運用。
通過運算得到所有圖片的url,相對于第一版更簡便,也不用更多地訪問,節省了下載時間。
在這個圖集谷爬蟲-2.0完成后,如果能夠的話,我會繼續對圖集谷爬蟲的不斷優化。
感謝大家的支持!
總結
以上是生活随笔為你收集整理的图集谷-写真集-爬虫-2.0的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用 cx recipe 安装 Hybr
- 下一篇: SAP Hybris Commerce