爬取智联招聘网站的手段(scrapy)
生活随笔
收集整理的這篇文章主要介紹了
爬取智联招聘网站的手段(scrapy)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
首先www.zhaopin.com是智聯(lián)招聘網(wǎng)站的首頁,進(jìn)行搜索后,比如搜Java,點(diǎn)右鍵查看網(wǎng)頁源代碼可以看到,網(wǎng)頁里面搜到的內(nèi)容是異步加載的如圖所示:
然后點(diǎn)擊f12打開開發(fā)者工具,如圖:
再點(diǎn)擊刷新查看發(fā)送的異步請(qǐng)求,并進(jìn)行分析:
可以看到發(fā)送了兩個(gè)異步請(qǐng)求,發(fā)現(xiàn)第二個(gè)是個(gè)后端接口,直接拿到postman中進(jìn)行測試 ,如圖:
發(fā)現(xiàn)是標(biāo)準(zhǔn)的接口,直接調(diào)用接口即可爬取到網(wǎng)站的數(shù)據(jù),也就避免了對(duì)網(wǎng)頁進(jìn)行分析,返回的是json數(shù)據(jù)?,還有需要注意的地方是pageSize請(qǐng)求的是60但是返回的卻是62:
然后查看網(wǎng)頁中填充的數(shù)據(jù)條目是62條。其他的就比較簡單了,直接根據(jù)url拼接發(fā)送請(qǐng)求,對(duì)每一個(gè)item進(jìn)行解析即可,其中還需要進(jìn)行url編碼,更多的代碼請(qǐng)?jiān)L問github地址?
?
總結(jié)
以上是生活随笔為你收集整理的爬取智联招聘网站的手段(scrapy)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 爬取智联招聘
- 下一篇: MEM/MBA数学基础(02)实数运算和