python爬虫,爬取糗事百科并保存到文件中
生活随笔
收集整理的這篇文章主要介紹了
python爬虫,爬取糗事百科并保存到文件中
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
#--*--coding:utf-8--*--
import re
import urllib.request
from urllib.error import URLError,HTTPError
import sysprint(sys.getdefaultencoding())url = 'http://www.qiushibaike.com/text/page/1'
# 給文件加入頭信息,用以模擬瀏覽器訪問
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'Connection': 'Keep-Alive','Accept': 'text/html, application/xhtml+xml, */*','Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3','User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}
for i in range(1,30+1):try:#實現翻頁翻頁url = re.sub('page/\d+','page/%d'%i,url,re.S)print(url)#發送請求,獲得返回信息req = urllib.request.Request(url,headers=headers)response = urllib.request.urlopen(req,timeout=5)content = response.read().decode('utf-8')#處理獲取的web網頁,并將信息處理了items = re.findall('<div class="content">(.*?)</div>',content,re.S)length = len(items)for j in range(0,length):#將信息寫入文件中fileHandle = open("qiushibaike2.txt",'a')fileHandle.write(str(j+1)+": ")fileHandle.write(items[j])fileHandle.write("\n")except HTTPError as e:print("HTTPError")except URLError as e:print("URLError")
如果有幫到您,打個賞唄
總結
以上是生活随笔為你收集整理的python爬虫,爬取糗事百科并保存到文件中的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ubuntu 循环显示登录界面
- 下一篇: Android代码实现新建文件夹,并将文