python下载图片、已知url_python 爬虫之requests爬取页面图片的url,并将图片下载到本地...
import requestsfromlxml import etree
import time
import os
import re
requests=requests.session()
website_url= ''website_name= ''
'''爬取的頁面'''def html_url(url):try:
head=set_headers()
text= requests.get(url,headers=head)
# print(text)
html=etree.HTML(text.text)
img= html.xpath('//img/@src')
# 保存圖片for src inimg:
src=auto_completion(src)
file_path=save_image(src)if file_path ==False:
print('請求的圖片路徑出錯,url地址為:%s'%src)else:
print('保存圖片的地址為:%s'%file_path)
except requests.exceptions.ConnectionErrorase:
print('網絡地址無法訪問,請檢查')
print(e)
except requests.exceptions.RequestExceptionase:
print('訪問異常:')
print(e)'''保存圖片'''def save_image(image_url):ifnot image_url:returnFalse
size= 0number= 0
while size == 0:try:
img_file= requests.get(image_url)
except requests.exceptions.RequestExceptionase:
raise e
# 不是圖片跳過if check_image(img_file.headers['Content-Type']):returnFalse
file_path=image_path(img_file.headers)
# 保存
with open(file_path,'wb') asf:
f.write(img_file.content)
# 判斷是否正確保存圖片
size=os.path.getsize(file_path)if size == 0:
os.remove(file_path)
# 如果該圖片獲取超過十次則跳過
number+= 1
if number >= 10:break
return (file_path if (size > 0) elseFalse)'''自動完成url的補充'''def auto_completion(url):globalwebsite_name,website_url
#如果是http://或者https://開頭直接返回
if re.match('http://|https://',url):returnurl
elif re.match('//',url):if 'https://' inwebsite_name:return 'https:'+url
elif'http://' inwebsite_name:return 'http:' +url
elif re.match('/',url):return website_name+url
elif re.match('./',url):return website_url+url[1::]'''圖片保存的路徑'''def image_path(header):
# 文件夾
file_dir= './save_image/'
ifnot os.path.exists(file_dir):
os.makedirs(file_dir)
# 文件名
file_name=str(time.time())
# 文件后綴
suffix=img_type(header)return file_dir + file_name +suffix'''獲取圖片后綴名'''def img_type(header):
# 獲取文件屬性
image_attr= header['Content-Type']
pattern= 'image/([a-zA-Z]+)'suffix=re.findall(pattern,image_attr,re.IGNORECASE)ifnot suffix:
suffix= 'png'
else:
suffix= suffix[0]
# 獲取后綴if re.search('jpeg',suffix,re.IGNORECASE):
suffix= 'jpg'
return '.' +suffix
# 檢查是否為圖片類型
def check_image(content_type):if 'image' incontent_type:returnFalseelse:returnTrue
#設置頭部
def set_headers():globalwebsite_name, website_url
head={'Host':website_name.split('//')[1],'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
}returnheadif __name__ == '__main__':
#當前的url,不包含文件名的比如index.html,用來下載當前頁的頁面圖片(./)
website_url= 'https://blog.csdn.net/kindroid/article/details'#域名,用來下載"/"開頭的圖片地址
#感興趣的朋友請幫我完善一下這個自動完成圖片url的補充
website_name= 'https://blog.csdn.net'url= 'https://blog.csdn.net/kindroid/article/details/52095833'html_url(url)
總結
以上是生活随笔為你收集整理的python下载图片、已知url_python 爬虫之requests爬取页面图片的url,并将图片下载到本地...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 3.6.5编译安装_Cen
- 下一篇: 公众号获取用户手机号_小程序中如何获取微