如何采集企业信息公示系统
? ? ? ?全國企業信息公示系統是企業、個體在工商局備案信息的公示平臺。平臺的反爬蟲策略很嚴格,下面介紹一下如何通過使用ForeSpider爬蟲軟件批量采集企業信息公示系統。
? ? ? ?一.省份情況分類
? ? ? ?通過逐一采集全國31個省份發現,各省份的狀況如下。
1.通過Cookie、jsessionid、日期與驗證機制關聯的省份:
省份:北京、天津、江蘇、浙江、陜西、內蒙古、重慶、新疆、河南、湖南、河北、陜西、吉林、黑龍江、上海、江西、安徽、山東、廣西、海南、四川、貴州、云南、西藏、甘肅、寧夏、青海。
定制狀況:無需定制,可以直接采集。
2.動態加密的省份:
省份:廣東。
定制狀況:需要定制,解決驗證碼識別限時的問題。
3.frame:
省份:福建、遼寧。
定制狀況:需要定制,動態JS生成的驗證機制需要進一步解析。
4.密碼盤的驗證機制:
省份:湖北。
定制狀況:可以實現手工識別采集,不需要定制。如果想實現機器識別需要自行解決驗證碼問題。
 
 
? ? ? ?二.下載安裝工具
? ? ? ?百度“ForeSpider”,可以下載。安裝后登錄,賬號密碼是在“前嗅”官網注冊時填寫的。也可以不輸入賬號密碼直接登錄,但是不注冊是不能夠采集的,只可以進行配置。
 
 
? ? ? ?三.測試過程
? ? ? ?以天津為例,通過人工識別驗證碼方式進行測試。
 
 
1.配置企業名稱的關鍵詞
 
 
 2.配置模板一的鏈接抽取
 
 
 
 
 
 3.配置模板二的鏈接抽取
 
 
 
 
 
 4.配置模板二的鏈接腳本
 
 
 
 
 
 5.配置模板三的鏈接抽取
 
 
 
 
 
 6.配置模板四的數據抽取
 
 
 
 
 
 7.驗證碼人工識別
 
 
 
 
 
 8.數據采集
 
 
 
 
 
9.數據瀏覽
? ? ? ?四.測試結果
? ? ? ?測試過程的驗證碼識別采用了人工識別的方式,將測試過程分為驗證碼識別和采集過程。
? ? ? ?1.驗證碼識別
在一臺計算機上測試,由于涉及到Cookie驗證,驗證碼識別只能開啟單線程。單線程人工識別20分鐘,識別480了個驗證碼。
若需求方有多臺計算機,識別過程可以多線程。加快識別速度。
? ? ? ?2.采集過程
采集過程啟用一臺計算機,開啟了10個線程。如果需求方的硬件配置較好,可以開啟100個線程左右。
經過采集,1000s內采集到共6410個鏈接(與數據相關及無關的鏈接總數),2423條數據(每條數據對應一個企業的信息)。
? ? ? ?即:在使用一臺計算機,開啟10個線程的情況下:
? ? ? ?1000秒--6410個鏈接--2423條數據
? ? ? ?1小時--23076個鏈接--8723條數據
? ? ? ?24小時--553824個鏈接--209347條數據
總結
以上是生活随笔為你收集整理的如何采集企业信息公示系统的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: RHCE认证考试时间是什么时候?
- 下一篇: locate: database too
