一篇文章教你如何使用python爬虫
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                一篇文章教你如何使用python爬虫
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                一、什么是爬蟲
?通過編寫程序,模擬瀏覽器上網,然后讓其去互聯網上抓取數據的過程。
1、爬蟲帶來的風險可以體現在如下2方面:
- ?爬蟲干擾了被訪問網站的正常運營
 - 爬蟲抓取了收到法律保護的特定類型的數據或信息
 
2、爬蟲在使用場景中的分類
- 通用爬蟲: 抓取系統重要組成部分。抓取的是一整張頁面數據。
 - ?聚焦爬蟲: 是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的局部內容。
 - ?增量式爬蟲: 檢測網站中數據更新的情況。只會抓取網站中最新更新出來的數據。
 
3、反爬機制
- 門戶網站,可以通過制定相應的策略或者技術手段,防止爬蟲程序進行網站數據的爬取。
 
4、反反爬策略
- 爬蟲程序可以通過制定相關的策略或者技術手段,破解門戶網站中具備的反爬機制,從而可以獲取門戶網站中
 
二、python爬蟲request模塊
1、requests模塊
- python中原生的一款基于網絡請求的模塊,功能非常強大,簡單便捷,效率極高。 作用:模擬瀏覽器發請求。
 
2、request模塊如何使用
- 指定url
 - UA偽裝
 - 請求參數的處理
 - ?發起請求
 - ?獲取響應數據
 - 持久化存儲
 
三、爬蟲實戰
需求:爬取肯德基餐廳查詢http://www.kfc.com.cn/kfccda/index.aspx中指定地點的餐廳數據
import requests import json# 爬取kfc門店地址 # 爬取url地址 url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'# UA偽裝 header = {'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } json_list = [] # 輸入參數 kw = input("enter the keywords:") # 組裝參數 for page in range(1,7):page = str(page)para = {'cname': '','pid': '','keyword': kw,'pageIndex': page,'pageSize': '10'}# 發送post請求obj = requests.post(url=url,params=para,headers=header).json()json_list.append(obj)#持久化數據 fileName = "address.json" with open(fileName,'w',encoding="utf-8") as fp:json.dump(json_list,fp=fp,ensure_ascii=False) print("over")代碼詳細地址為:kfc爬取門店代碼
總結
以上是生活随笔為你收集整理的一篇文章教你如何使用python爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: Mybatis-Plus主要功能详解
 - 下一篇: Python爬虫xpath详解