简单入门爬斗鱼图片
這是個比較簡單的入門爬蟲。基于python3。
urllib,urllib2,python3中用urllib.request代替,使用方法基本一致。
#python3 import urllib.request import time import re import random def getHtml(url):#添加User_agent,頭信息,偽裝成瀏覽器請求。headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}req = urllib.request.Request(url=url, headers=headers)page = urllib.request.urlopen(req)html = page.read()return htmldef getImage(html):html = html.decode('utf-8')imageList = re.findall(r'src="(.*?\.(jpg|png))"',html)x = 1for imageUrl in imageList:urllib.request.urlretrieve(imageUrl[0],'/home/hang/pythonLearning/Crawler/CrawlDouyuGirl/%d.%s'%(x,imageUrl[1]))print("已下載:%s" % imageUrl[0])x += 1temp = random.randint(3,7)time.sleep(temp)html = getHtml("https://www.douyu.com/directory/game/yz")getImage(html)?
總結
- 上一篇: 字符集编码(四):UTF
- 下一篇: 三人成虎之太原地震