[功能发布]Excel催化剂2周年巨献-网页数据采集功能发布,满足90%合理场景使用...
轉(zhuǎn)眼間,Excel催化劑推出已經(jīng)兩周年,在此之際,獻(xiàn)上數(shù)據(jù)時(shí)代最剛需的網(wǎng)頁采集功能,無需苦苦尋覓各種工具,借助Excel催化劑過往數(shù)據(jù)處理、清洗功能,加上此輪的網(wǎng)頁采集功能,一點(diǎn)不輸于市面上的各種收費(fèi)性的工具所能達(dá)到的效果。一貫地個(gè)人完全免費(fèi),歡迎參與轉(zhuǎn)發(fā)活動(dòng)獲取使用權(quán)。
主流網(wǎng)頁采集工具概述
可能許多網(wǎng)友們不知道,筆者走向Excel的開發(fā)的領(lǐng)域,也是從網(wǎng)抓開始,從一開始的使用VBA簡(jiǎn)單寫幾行代碼,獲取到自己所需的內(nèi)容,到學(xué)習(xí)使用了幾款網(wǎng)頁采集現(xiàn)成工具,到現(xiàn)在終于自己可以出一款親手打造的最貼心的Excel插件功能。
在筆者接觸過的工具中,有免費(fèi)的Excel(PowerBI)的PowerQuery和Hack,和收費(fèi)的火車采集器,火車瀏覽器,八爪魚采集器,碼棧,后羿采集器等。之前在公司的環(huán)境下,也購(gòu)買過部分產(chǎn)品的付費(fèi)功能體驗(yàn)過。
實(shí)在話,這些產(chǎn)品做出來,也能有不錯(cuò)的使用體驗(yàn),特別是付費(fèi)后全功能解鎖后。當(dāng)然若非企業(yè)的行為,單單個(gè)人為了一點(diǎn)點(diǎn)日常的便利性操作的小范圍的采集工作,而購(gòu)買一款上述的采集工具,的確有些不劃算。
下圖為八爪魚的收費(fèi),按訂閱式收費(fèi),不買斷。年2000+才能真正用到較完整功能。
下圖是火車瀏覽器的價(jià)格,算是買斷版的,不過后續(xù)亦有服務(wù)費(fèi)的概念。
不再舉例,一句話總結(jié),網(wǎng)頁爬蟲的領(lǐng)域,的確是眾多企業(yè)里的剛需,市場(chǎng)上的產(chǎn)品也多數(shù)是收費(fèi)性質(zhì),免費(fèi)的功能被限制得較為厲害。
同時(shí)收費(fèi)性功能,可能很大部分是指向自動(dòng)化操作和偏重型的數(shù)據(jù)直接導(dǎo)入數(shù)據(jù)庫(kù)或直接發(fā)布到網(wǎng)站這類采集與發(fā)布一條龍的功能。
對(duì)于數(shù)據(jù)分析工作者來說,最要緊的將數(shù)據(jù)采集到本地作分析,或一般性用戶對(duì)企業(yè)內(nèi)業(yè)務(wù)系統(tǒng)或第3方數(shù)據(jù)平臺(tái)數(shù)據(jù)采集整合等功能,不見得非常貼合。
敢于打破信息不對(duì)稱,接受橫向測(cè)評(píng)的Excel催化劑網(wǎng)頁內(nèi)容采集功能
對(duì)網(wǎng)頁采集方面的功能有興趣的朋友們,可以結(jié)合上述提及的主流的采集工具,對(duì)其有一定的認(rèn)識(shí)后,再回來看Excel催化劑的功能,有對(duì)比更有說服力。
能夠?qū)⒕W(wǎng)頁采集功能做到極致化,并且完全無任何功能限制,免費(fèi)開放的,只Excel催化劑一家。最要緊的是,人人都可使用的低門檻保證。
五大網(wǎng)頁采集功能全覆蓋,遠(yuǎn)勝主流網(wǎng)頁采集工具的單一性功能。
一、模擬瀏覽器訪問方式采集,滿足任何挑剔的反爬蟲策略網(wǎng)站需求
在筆者開發(fā)過程中,已經(jīng)陸續(xù)給大家演示過幾大公認(rèn)最難爬取平臺(tái)的數(shù)據(jù)采集,如淘寶搜索頁面采集,公眾號(hào)后臺(tái)數(shù)據(jù)采集等。
這些互聯(lián)網(wǎng)數(shù)據(jù)大戶,也是眾多價(jià)值數(shù)據(jù)的來源地,對(duì)爬蟲的爬取操作防范也是最為嚴(yán)苛的,各種異步加載技術(shù),javaScript響應(yīng)跳轉(zhuǎn)及需登錄訪問等措施,在模擬瀏覽器方式來訪問,都可逐一攻破,因模擬瀏覽器訪問,已經(jīng)十分接近人工打開網(wǎng)頁的操作,沒有人敢給人工訪問輕易設(shè)防,增加訪問難道,降低用戶體驗(yàn)度的。
以下視頻中,演示微信公眾號(hào)自動(dòng)化下載文件。
如下圖,簡(jiǎn)單配置采集頁,滾動(dòng)屏數(shù)、間隔時(shí)長(zhǎng)及采集內(nèi)容信息,即可順利采集到淘寶搜索的數(shù)據(jù)。
下圖所示:淘寶搜索頁中的關(guān)鍵信息,結(jié)構(gòu)下呈現(xiàn)。
好幾大主流采集工具,亦是順勢(shì)而為,采用此種方式來采集數(shù)據(jù),但此種方式,采集效率不高是它的一大瓶頸,測(cè)試時(shí)感覺良好,但真正采集過程中,速度慢,不穩(wěn)定是一大痛點(diǎn)。**
二、使用Http直接提交方式采集,滿足一般性網(wǎng)頁采集的需求
任何事務(wù)總是兩面性,前面提及的各大工具的傻瓜式操作低門檻的代價(jià)是應(yīng)用面的不廣,就如同樣一臺(tái)相機(jī),傻瓜相機(jī)拍照肯定比單反相機(jī)簡(jiǎn)單太多,但深入使用時(shí),單反式的手動(dòng)調(diào)節(jié)就顯得非常必要。
在網(wǎng)頁采集方面亦是如此,高級(jí)點(diǎn)的用戶,可以自行抓包獲取實(shí)際數(shù)據(jù)網(wǎng)址并批量構(gòu)造類似網(wǎng)址進(jìn)行訪問。一次性直達(dá)目標(biāo),減少干擾。
Http的提交方式,是最為直接,最為快速的網(wǎng)頁采集手段,但對(duì)用戶要求也會(huì)有所提升。高級(jí)用戶更為喜愛。同樣地,局限性在于網(wǎng)站主的各種防范和封鎖,能夠有機(jī)會(huì)用到時(shí)最好,效率最高。
對(duì)標(biāo)主流的采集工具,只剩下火車采集器和火車瀏覽器可滿足,當(dāng)然免費(fèi)的PowerQuery和Hack也可以,不過門檻偏高,特別是要考慮到登錄狀態(tài)下的采集。
Excel催化劑在支持Http的方式訪問,提供了極其豐富的功能輔助,不止于在提交網(wǎng)址訪問的那一刻的提交信息的靈活配置,更有網(wǎng)址數(shù)據(jù)的批量生成,采集內(nèi)容后的數(shù)據(jù)清洗如文本處理提取或刪除指定內(nèi)容,二次再提取(非常人性化地提取內(nèi)容的同時(shí),可將采集網(wǎng)頁全或部分內(nèi)容做保存,使用自定義函數(shù)的方式再提取)
三、強(qiáng)大的文件下載功能
數(shù)據(jù)除僅顯示在網(wǎng)頁上供采集外,另有大量的數(shù)據(jù)是直接通過下載的方式提供,這在各種管理后臺(tái)、數(shù)據(jù)平臺(tái)上尤為常見,如內(nèi)部系統(tǒng)的提交相應(yīng)條件后下載文件和微信、淘寶等數(shù)據(jù)后臺(tái)上提供的詳盡數(shù)據(jù)分析所需要的底層明細(xì)數(shù)據(jù),都是通過下載的方式提供的。
數(shù)據(jù)下載功能,從最為簡(jiǎn)單的提供網(wǎng)址即可,到需要登錄狀態(tài)下才能下載,再到更復(fù)雜的大文件下載穩(wěn)定性保障等,在Excel催化劑上都能一一解決。使用Http提交方式下載及使用模擬瀏覽器Chrome的方式,足于滿足任何挑剔的下載任務(wù),同時(shí)也兼顧了下載的性能及穩(wěn)定性要求。
相較迅雷等工具批量下載,使用Excel催化劑可以下載同時(shí)按映射關(guān)系改名,下載鏈接的構(gòu)造在Excel環(huán)境下大量的函數(shù)、填充及Excel催化劑已開發(fā)的替換功能,笛卡爾積等操作,使用體驗(yàn)超極棒。
四、獨(dú)有的網(wǎng)頁另存為功能,滿足采集排版后的網(wǎng)頁二次加工使用需求
眾多的網(wǎng)頁采集工具,僅限于采集網(wǎng)頁上的內(nèi)容,將其結(jié)構(gòu)化為數(shù)據(jù)表結(jié)構(gòu)的數(shù)據(jù),有跟蹤Excel催化劑過往推文的都知道,Excel催化劑將自身公眾號(hào)的推文全部整理成冊(cè),變?yōu)镻DF和Word版本的,放到百度云盤中供下載。
此類的需求,用于滿足對(duì)現(xiàn)有網(wǎng)絡(luò)世界的碎片化信息的整理,如公眾號(hào)文章采集或其他一些僅發(fā)布在網(wǎng)絡(luò)上的書籍連載,主題連載等內(nèi)容。
原有網(wǎng)頁上的排版樣式通過網(wǎng)頁另存為的方式得到固化,無需采集回來重新加工排版,方便人的閱讀。并且可滿足采集過程中,將干擾內(nèi)容進(jìn)行剪切刪除,留下干凈的內(nèi)部部分。
如下圖是原網(wǎng)頁的展示
經(jīng)過剪切后,將無用信息及廣告去除,最后再轉(zhuǎn)換為PDF格式,方便離線閱讀和整體連貫性閱讀。
五、將網(wǎng)頁轉(zhuǎn)換為PDF或圖片,滿足離線閱讀需求及查閱
將網(wǎng)頁轉(zhuǎn)換為PDF或圖片,技術(shù)要點(diǎn)在第四點(diǎn)已有講述。相對(duì)其他直接轉(zhuǎn)換的方案,使用第四點(diǎn)的功能將其離線化到本地的html文件,再轉(zhuǎn)PDF,更為靈活方便,特別是對(duì)長(zhǎng)網(wǎng)頁和有異步加載的頁面,更能保障采集到的內(nèi)容完整性。
當(dāng)然也同樣支持直接使用網(wǎng)址轉(zhuǎn)換成PDF或圖片。轉(zhuǎn)換過程,更是能夠多個(gè)網(wǎng)頁合并為一個(gè)文件,靈活配置,非常好用。
極度友好體驗(yàn)支持上述五大功能實(shí)現(xiàn)
一、所有配置工作在Excel工作表環(huán)境完成
縱觀絕大部分的采集工具,就算有再?gòu)?qiáng)大的采集能力和防反爬能力,用戶在配置自己想采集的頁面及配置一些文件映射關(guān)系和時(shí)間延時(shí)等操作,不可避免在一些窗體、界面上作配置,其使用效果遠(yuǎn)遠(yuǎn)不及在Excel上的體驗(yàn)。
退一步來說,就算提供了導(dǎo)入文件的方式導(dǎo)入數(shù)據(jù),也需來回在Excel上加工好數(shù)據(jù)再返回軟件工具操作界面操作,繁瑣在所難免。
如下圖中左側(cè)的網(wǎng)址配置及右側(cè)的采集內(nèi)容配置區(qū),非常友好方便的Excel使用體驗(yàn)。
二、采集規(guī)則模板化,極大方便復(fù)用
在第一點(diǎn)工作表環(huán)境的配置基礎(chǔ)上,所做的一切配置,都可固化下來,供下次使用。
最要緊的是當(dāng)同類型的模板再次使用時(shí),復(fù)制工作表、單元格的操作將可說是最完美的使用體驗(yàn),沒有之一。
三、支持xpath和CssSelector雙模式內(nèi)容匹配,并可分步化進(jìn)行,降低匹配邏輯的書寫難度。
一般性的采集工具,雖然有那么丁點(diǎn)的智能識(shí)別內(nèi)容,但面對(duì)稍復(fù)雜的頁面,還是要有相應(yīng)的xpath或CssSelector的知識(shí)。
在Excel催化劑的方案中,xpath有比網(wǎng)絡(luò)上經(jīng)常提及的xpath helper或fire path更優(yōu)的方案,讓用戶更低門檻寫出自己所需的xpath或CssSelector表達(dá)式。
同時(shí)兼容兩種表達(dá)式的匹配,熟悉哪個(gè)用哪個(gè),非常好用。
四、只需關(guān)注一或多的數(shù)據(jù)結(jié)構(gòu),極大簡(jiǎn)化數(shù)據(jù)采集的頁面結(jié)構(gòu)分析
在其他采集工具中,需要考慮不同頁面不同的應(yīng)對(duì)策略,如詳情頁、列表頁、搜索頁、首頁等,不同頁面不同的規(guī)則適配。
在Excel催化劑的解決方案中,只需關(guān)注所需的內(nèi)容歸屬一端還是多端,類似日常面對(duì)訂單表和訂單明細(xì)表的關(guān)系,一端的數(shù)據(jù)生成一行記錄,多端的數(shù)據(jù)生成多行記錄,任何頁面規(guī)則適用,極大簡(jiǎn)化了頁面匹配規(guī)則的編寫。
通過手動(dòng)調(diào)節(jié)的操作,不同頁面的采集工作分步進(jìn)行,充分利用好Excel極度友好的操作界面,復(fù)雜事物分解操作,是解決問題的首先之道!
下圖中展示了Excel催化劑規(guī)則匹配的靈活之處,字段新增,字段類型分析,元素定位方式等,都能滿足復(fù)雜的現(xiàn)實(shí)網(wǎng)頁采集的需要。
五、全新的匹配規(guī)則分解操作及提供可變的自定義函數(shù)方式提取網(wǎng)頁片段核心信息
在第四點(diǎn)的理念下,將復(fù)雜的多端或一端的大片段網(wǎng)頁進(jìn)行拆解,使最終提取的內(nèi)容在相對(duì)簡(jiǎn)單的Html代碼基礎(chǔ)上進(jìn)行提取,如下圖中,多端的關(guān)系中,將整個(gè)列表頁的一個(gè)單元的InnerHtml文本進(jìn)行存儲(chǔ)。
使用分而治之的理念,在小片段中通過自定義函數(shù),進(jìn)行所需信息的提取。
一整套的html的DOM對(duì)象模型的數(shù)據(jù)提取函數(shù),整裝待發(fā),應(yīng)對(duì)不種復(fù)雜的提取邏輯,相比普通的文本處理函數(shù)和正則處理方式,強(qiáng)大太多。
六、無需數(shù)據(jù)導(dǎo)入導(dǎo)出的繁瑣操作,所有操作在Excel中完成。
所有的配置信息在Excel中完成,并且數(shù)據(jù)采集結(jié)果,亦可在Excel工作表中完成,單個(gè)工作表數(shù)據(jù)量高達(dá)幾十萬條記錄,一點(diǎn)問題都沒有。再多數(shù)據(jù),多開工作表,數(shù)據(jù)采集、處理、分析,主戰(zhàn)場(chǎng)Excel中無需更改。
許多人還停留在Excel只能處理少量數(shù)據(jù)的認(rèn)識(shí)上,Excel在新版本中,集成BI模塊,輕松應(yīng)對(duì)千萬級(jí)數(shù)據(jù),性能優(yōu)越!跟著Excel催化劑走下去,眼界大開。
如此強(qiáng)大的網(wǎng)頁采集功能,誰人能駕馭掌握之?
工具越強(qiáng)大,越需要學(xué)習(xí)成本去掌握它,Excel催化劑的網(wǎng)頁采集功能,要想將其完整掌握并應(yīng)用出它的威力,需要有基本的html網(wǎng)頁知識(shí),xpath表達(dá)式或CssSelector表達(dá)式知識(shí),最好能掌握點(diǎn)正則表達(dá)式知識(shí),同時(shí)兼顧有網(wǎng)頁加載原理,網(wǎng)頁數(shù)據(jù)抓包知識(shí)。
上述這些能力,是每個(gè)網(wǎng)頁采集工具能夠用好的必需知識(shí),但Excel催化劑能夠?qū)⒅T檻拉到最低,對(duì)其所需的掌握程度要求最低,即能駕馭住Excel催化劑的網(wǎng)頁采集功能。
因涉及的知識(shí)面過廣,同時(shí)文字教程較為難以理解掌握,Excel催化劑會(huì)在后續(xù)同步推出網(wǎng)頁采集功能的視頻教程,在教程中將爬蟲知識(shí)和插件的使用結(jié)合一起,給大家最低學(xué)習(xí)成本,產(chǎn)生最大化的產(chǎn)出收益,敬請(qǐng)期待。
視頻講解知識(shí)點(diǎn)大綱一覽,最大程度不賣弄知識(shí),只講最有應(yīng)用價(jià)值的二八原則下最剛需實(shí)用的知識(shí)。
如此強(qiáng)大的網(wǎng)頁采集功能,如何可獲取它?
Excel催化劑的老朋友都知道,Excel催化劑曾經(jīng)的承諾,個(gè)人用戶全功能永久性免費(fèi)使用。這樣的口號(hào)一百年不變。
作為一款每個(gè)功能都可做到極致化的優(yōu)秀作品,只需您真誠(chéng)地認(rèn)可,并投之真心的喜愛,現(xiàn)在的時(shí)代是最好的時(shí)代也是最壞的時(shí)代。大量的優(yōu)秀的東西免費(fèi)甚至開源化,但同時(shí)也大量的垃圾信息充斥著大家的視野,以致使發(fā)現(xiàn)優(yōu)秀的東西成為一個(gè)門檻,成為一種信息不對(duì)稱。
Excel催化劑非常愿意將沉淀多年,花費(fèi)巨大精力開發(fā)完成的功能免費(fèi)化,同時(shí)也呼吁關(guān)注優(yōu)秀作品的你加入到傳播的行列。
轉(zhuǎn)發(fā)此文到朋友圈,并附上您真誠(chéng)的對(duì)此功能的點(diǎn)評(píng)與期待,調(diào)動(dòng)您的熱情,讓朋友圈為您點(diǎn)贊,完成66個(gè)贊,即可免費(fèi)獲取本功能的激活碼及配置文件,獲得使用權(quán)。
因視頻教程成本巨高,無法免費(fèi)的形式供大家觀看,購(gòu)買視頻教程的用戶,可豁免轉(zhuǎn)發(fā)朋友圈積贊的門檻,直接可獲得本次網(wǎng)頁采集功能的激活碼及配置文件,獲得使用權(quán)。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的[功能发布]Excel催化剂2周年巨献-网页数据采集功能发布,满足90%合理场景使用...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用ASP.NET Core构建可检测的高
- 下一篇: .NET Core 微服务学习与实践系列