Python用urlib爬虫基础及格式入门
生活随笔
收集整理的這篇文章主要介紹了
Python用urlib爬虫基础及格式入门
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
初級的話,記住四個步驟:
之后會逐步加深難度并更新的。
需要爬取的網頁地址。url
創建headers 請求頭 headers
創建響應體 response
獲取的數據 html
基本列子:
import urllib from urllib import request# 第一步 "User-Agent" 可以網上搜。一大堆 headers = {"User-Agent": "隨便打開個瀏覽器在你的network -> Headers 中有" }url = "https://www.baidu.com" # 第二步# 第三步 # 傳入上述的 url 與 headers rep = urllib.request.Request(url=url,headers=headers)# 第四步 # 創建網頁對象。 res = urllib.request.urlopen(rep) # print(res.read()) # 二進制類型 print(res.read().decode('utf-8')) # 轉成字符串,打印網頁數據 # print(res.info()) # 響應的信息。之后的就是處理數據了,獲取自己想要的
前期入門最主要的是記住這幾個步驟,勤加練習,并且應當熟知數據處理。
總結
以上是生活随笔為你收集整理的Python用urlib爬虫基础及格式入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PyCharm修改镜像源无用?
- 下一篇: Flask上传文件到本地(底层方法实现)