爬虫-抓取网页内容
我們的任務 :抓取網頁內容
1.用戶指定url
2.獲取所有的文章的文字
urllib的request模塊可以非常方便地抓取URL內容,也就是發送一個GET請求到指定的頁面,然后返回HTTP的響應
Python通過re模塊提供對正則表達式的支持
from urllib import request import re用戶輸入指定的url
#地址 綁定(編程期間) #user_url = "https://news.sina.com.cn/o/2018-12-25/doc-ihmutuee2352838.shtml"#地址 由用戶指定(使用期間) print("請輸入您想查看的url") user_url = input()請輸入您想查看的url https://www.cnblogs.com/ms-uap/p/9928254.html獲取網頁html信息并轉碼
添加頭信息,反爬蟲策略
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} req = request.Request(user_url, headers=headers)with request.urlopen(req) as f:data = f.read() data_web = data.decode("utf-8")我們需要url的標題以及文章進行分析。
提取title標簽的正則表達式 我的匹配代碼
title = re.findall('<title.*?>(.*?[\u4e00-\u9fa5]*?.*?)</title>', data_web)for line in title:print(line)系列之1-神經網絡的基本工作原理 - UniversalAIPlatform - 博客園提取p標簽的正則表達式 我的匹配代碼
article = re.findall('<p.*?>(.*?[\u4e00-\u9fa5]*?.*?)</p>', data_web)for line in article:print(line)轉載于:https://www.cnblogs.com/hebtu/p/10194743.html
總結
- 上一篇: [BZOJ 2844] albus就是要
- 下一篇: CF662C Binary Table