當前位置：首頁 > 编程语言 > python >内容正文

python

一篇文章教你如何使用python爬虫

發布時間：2025/1/21 python 50 豆豆

生活随笔收集整理的這篇文章主要介紹了一篇文章教你如何使用python爬虫小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、什么是爬蟲

?通過編寫程序，模擬瀏覽器上網，然后讓其去互聯網上抓取數據的過程。

1、爬蟲帶來的風險可以體現在如下2方面：

?爬蟲干擾了被訪問網站的正常運營
爬蟲抓取了收到法律保護的特定類型的數據或信息

2、爬蟲在使用場景中的分類

通用爬蟲：抓取系統重要組成部分。抓取的是一整張頁面數據。
?聚焦爬蟲：是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的局部內容。
?增量式爬蟲：檢測網站中數據更新的情況。只會抓取網站中最新更新出來的數據。

3、反爬機制

門戶網站，可以通過制定相應的策略或者技術手段，防止爬蟲程序進行網站數據的爬取。

4、反反爬策略

爬蟲程序可以通過制定相關的策略或者技術手段，破解門戶網站中具備的反爬機制，從而可以獲取門戶網站中

二、python爬蟲request模塊

1、requests模塊

python中原生的一款基于網絡請求的模塊，功能非常強大，簡單便捷，效率極高。作用：模擬瀏覽器發請求。

2、request模塊如何使用

指定url
UA偽裝
請求參數的處理
?發起請求
?獲取響應數據
持久化存儲

三、爬蟲實戰

需求：爬取肯德基餐廳查詢http://www.kfc.com.cn/kfccda/index.aspx中指定地點的餐廳數據

import requests import json# 爬取kfc門店地址 # 爬取url地址 url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'# UA偽裝 header = {'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } json_list = [] # 輸入參數 kw = input("enter the keywords：") # 組裝參數 for page in range(1,7):page = str(page)para = {'cname': '','pid': '','keyword': kw,'pageIndex': page,'pageSize': '10'}# 發送post請求obj = requests.post(url=url,params=para,headers=header).json()json_list.append(obj)#持久化數據 fileName = "address.json" with open(fileName,'w',encoding="utf-8") as fp:json.dump(json_list,fp=fp,ensure_ascii=False) print("over")

代碼詳細地址為：kfc爬取門店代碼

總結

以上是生活随笔為你收集整理的一篇文章教你如何使用python爬虫的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Mybatis-Plus主要功能详解
下一篇： Python爬虫xpath详解