Scrapy 爬虫框架四 —— 动态网页及其 Splash 渲染
一、前言
動(dòng)態(tài)頁(yè)面:HTML文檔中的部分是由客戶(hù)端運(yùn)行JS腳本生成的,即服務(wù)器生成部分HTML文檔內(nèi)容,其余的再由客戶(hù)端生成
靜態(tài)頁(yè)面:整個(gè)HTML文檔是在服務(wù)器端生成的,即服務(wù)器生成好了,再發(fā)送給我們客戶(hù)端
二、問(wèn)題分析
scrapy爬蟲(chóng)框架沒(méi)有提供頁(yè)面 js 渲染服務(wù),所以我們獲取不到信息,所以我們需要一個(gè)渲染引擎來(lái)為我們提供渲染服務(wù)---這就是Splash渲染引擎(大俠出場(chǎng)了)
1、Splash渲染引擎簡(jiǎn)介:
Splash是為Scrapy爬蟲(chóng)框架提供渲染javascript代碼的引擎,它有如下功能:
(1)為用戶(hù)返回渲染好的html頁(yè)面 (2)并發(fā)渲染多個(gè)頁(yè)面
(3)關(guān)閉圖片加載,加速渲染 (4)執(zhí)行用戶(hù)自定義的js代碼
(5)執(zhí)行用戶(hù)自定義的lua腳步,類(lèi)似于無(wú)界面瀏覽器phantomjs
2、Splash渲染引擎工作原理:(類(lèi)比例子如下)
假定有三個(gè)小伙伴:(1--懶惰的我 , 2 --提供外賣(mài)服務(wù)的小哥,3---本人喜歡吃的家味道餐飲點(diǎn))
今天正好天氣不好,1呆在宿舍睡了一早上起來(lái),發(fā)現(xiàn)肚子餓了,它就想
總結(jié)
以上是生活随笔為你收集整理的Scrapy 爬虫框架四 —— 动态网页及其 Splash 渲染的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 超级弹珠游戏(洛谷P2356题题解,Ja
- 下一篇: 【数据结构与算法】链式栈的Java实现