當前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

發布時間：2025/3/21 python 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 微醫掛號網專家團隊數據----寫在前面

今天嘗試使用一個新的爬蟲庫進行數據的爬取，這個庫叫做pyspider，國人開發的，當然支持一下。

安裝起來是非常簡單的

pip install pyspider

安裝之后，啟動在CMD控制臺里面敲入命令

pyspider

出現如下界面，代表運行成功，一般情況下，你的電腦如果沒有安裝 phantomjs 他會先給你安裝一下。

接下來打開瀏覽器，訪問地址輸入 127.0.0.1:5000, 應該顯示如下界面，就可以愉快的進行編碼了~

3步創建一個項目

2. 微醫掛號網專家團隊數據----庫基本使用入門

這款工具的詳細使用，給你提供一個非常好的博文，寫的很完善了，我就不在贅述了。咱們直接進入到編碼的部分。

https://blog.csdn.net/weixin_37947156/article/details/76495144

3. 微醫掛號網專家團隊數據----爬蟲源碼

我們要爬取的目標站點是微醫掛號網專家團隊數據網頁地址https://www.guahao.com/eteam/index

分析AJAX鏈接地址，尋找爬取規律

經過分析之后獲取到的鏈接為 https://www.guahao.com/json/white/search/eteams?q=&dept=&page=2&cid=&pid=&_=1542794523454

其中page參數最重要，表示頁碼，實際測試中發現，當代碼翻頁到 84頁的時候，數據竟然開始重復了，應該是網站本身系統的問題，這個沒有辦法。

爬蟲流程獲取總頁數

循環爬取每頁的數據

爬取總頁數

在入口函數on_start的位置去爬取第一頁數據，爬取成功之后調用index_page函數

from pyspider.libs.base_handler import *

import pandas as pd

class Handler(BaseHandler):

crawl_config = {

}

@every(minutes=24 * 60)

def on_start(self):

self.crawl('https://www.guahao.com/json/white/search/eteams?page=1', callback=self.index_page,validate_cert=False)

index_page函數用來獲取頁碼總數，并且將所有待爬取的地址存放到self.crawl中，這個地方因為數據重復的原因，最終硬編碼為84頁數據了

@config(age=10 * 24 * 60 * 60)

def index_page(self, response):

doctors = response.json

if doctors:

if doctors["data"]:

page_count = doctors["data"]["pageCount"]

#for page in range(1,page_count+1):

for page in range(1,85):

self.crawl('https://www.guahao.com/json/white/search/eteams?page={}'.format(page),callback=self.detail_page,validate_cert=False)

最后一步，解析數據，數據爬取完畢，存放到 csv 文件里面

@config(priority=2)

def detail_page(self, response):

doctors = response.json

data = doctors["data"]["list"]

return data

def on_result(self,result):

if result:

print("正在存儲數據....")

data = pd.DataFrame(result)

data.to_csv("專家數據.csv", mode='a', header=False, encoding='utf_8_sig')

完成的代碼預覽

回到主頁面，此時看到任務列表顯示了我們剛剛創建的任務，設置 status 為 running，然后點擊 Run 按鈕執行

執行完成后，點擊 Results 按鈕，進入到爬取結果的頁面

等著就可以了

4. 微醫掛號網專家團隊數據----最后幾步Web UI 控制臺上的 rate/burst 參數來調節速度，rate 是每秒抓取的數量，burst 是并發的數量

pyspider 爬取完畢之后，你在點擊run是不會在運行的。解決辦法如下，停止 pyspider，找到下圖的幾個文件 project.db 和 result.db 兩個文件不要刪除，刪除其他文件即可。

寫完啦~ 得到了 ·1000·多個專家團隊。

總結

以上是生活随笔為你收集整理的python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：单个接口添加超时时间_SpringBoo
下一篇：电容充放电原理图_干货 | 入门开关电源

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

總結