Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片
生活随笔
收集整理的這篇文章主要介紹了
Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Crawler:爬蟲基于urllib.request庫(kù)實(shí)現(xiàn)獲取指定網(wǎng)址上的所有圖片
?
?
目錄
輸出結(jié)果
核心代碼
?
?
?
?
輸出結(jié)果
?
?
?
?
核心代碼
# coding=gbk import urllib.request import re import os import urllibdef getHtml(url): #指定網(wǎng)址獲取函數(shù)page = urllib.request.urlopen(url)html = page.read()return html.decode('UTF-8')def getImg(html): #定義獲取圖片函數(shù)reg = r'src="(.+?\.jpg)" pic_ext'imgre = re.compile(reg)imglist = imgre.findall(html)x = 0path = r'F:\File_Python\Crawler' # 將圖片保存到F:\File_Python\Crawler文件夾中,如果沒有Crawler文件夾,將會(huì)自動(dòng)則創(chuàng)建if not os.path.isdir(path): os.makedirs(path) paths = path+'\\' for imgurl in imglist: #打開in集合中保存的imgurl圖片網(wǎng)址,循環(huán)下載圖片保存在本地urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x)) x = x + 1 return imglist html = getHtml("https://tieba.baidu.com/p/2460150866?pn=10")#指定獲取圖片的網(wǎng)址路徑 print (getImg(html))?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ML之Hierarchical clus
- 下一篇: MAT之DT:DT实现根据乳腺肿瘤特征向