采集企业联系方式的10个经典方法
采集企業聯系方式的10個經典方法
企業聯系方式采集全網企業信息采集、企業名錄、法人號碼、企業采集軟件、全網搜索、網頁爬蟲、采集網站數據、網頁數據采集軟件、python爬蟲、HTM網頁提取、APP數據抓包、APP數據采集、一站式網站采集技術、BI數據的數據分析、數據標注等成為大數據發展中的熱門技術關鍵詞。那么采集企業聯系方式的方法有哪些呢?我給大家分享一下,我爬蟲的個人經驗,我們在采集類似企業聯系方式數據的時候會遇到什么技術問題,然后再根據這些問題給大家分享采集方案.
一、寫爬蟲采集網站之前:
為什么經常聽到有些網站的域名被劫持、服務器被heike gongji、數據庫被盜等,大家平時登錄一個網站,記的都是類似www.qcc.com這樣的網址。這叫做域名(domain name)。輸入域名后是需要先通過DNS服務器來解析識別這個域名對應的服務器IP地址,每家公司網站的程序和數據都是放在自己服務器上的(如阿里云服務器或者自己購買的服務器),每個服務器有一個IP地址,只要知道這個IP地址,就可以訪問到這個網站(特殊情況除外,比如設置了禁止IP訪問權限)。
(1)域名解析過程:輸入www.qcc.com這網址(域名)怎么就可以訪問到對應的網站呢?那是因為如果需要讓您域名可以正常使用,就必須先把域名和您網站的服務器IP地址綁定在一起,以后用戶在瀏覽器只要輸入這個域名就等于輸入您這個服務器IP地址了,這個綁定的過程叫做域名解析,互聯網有13臺DNS根服務器,專門來做域名解析,其中10臺在美國(包括一臺主根服務器),另外3臺根服務器分別在英國、瑞典、日本,而中國一臺都沒有,那么,大家的擔憂隨之而來:很多朋友問我,如果美國的根服務器不為中國提供服務了,中國是不是就從網絡上消失了?網站還能訪問嗎?其實域名服務器只是解析域作用而已,如果沒有域名我們可以用IP訪問網站,只是用IP訪問記起來不方便而已,域名也就一個別名容易記住的簡稱的作用而已,例如103.235.46.39。這叫做IP地址,即Internet Protocol Address,互聯網協議地址。比如輸入 ping www.baidu.com可以查到百度這個網址解析綁定到的是哪個服務器的IP地址。
從上面可以知道百度的IP地址為:103.235.46.39。當您知道這個網址的服務器IP地址時候,您在瀏覽器輸入網址和您在瀏覽器輸入這個IP地址 都是可以訪問到這個網站的(除非有些禁止IP訪問),通過這個手段,我們后面在做網站數據采集爬蟲的時就可以直接請求IP地址去采集數據了,可以繞過網址直搗皇宮了,就算網址更換了,但是服務器是不變的,我們一樣找到它網站老巢,采集它的數據。
(2)域名劫持爬蟲技術: 域名劫持是互聯網gongji的一種方式,通過gongji域名解析服務器(DNS),實現劫持,因為如果要訪問www.qcc.com 就必先經過DNS域名解析服務器來解析這個網址對應那臺服務器IP地址。如果在這個過程有heike想攻您網站,比如heike想gongji百度,就可以在這個DNS解析域名環節做手腳,比如我想讓所有用戶打開www.qcc.com 直接訪問的是我的廣告網站,而不是百度自己服務器里面的網站網頁。那很簡單,那只要在DNS 解析百度這個網址的時候把對應的百度服務器IP地址 修改解析到您自己的網站服務器IP地址去,那么所有人打開這個qcc.com網址就實際就是打開您的網站了。這個過程就叫域名劫持,這種技術已經不是爬蟲技術是高級的heike技術了。
(3)釣魚網站爬蟲技術:通過域名劫持技術,很多人heike去劫持銀行網站、支付寶網站、充值交易的網站等,比如他們先做一個和銀行一模一樣的網站,功能和長相和銀行的一模一樣,這個網站我們稱呼釣魚網站,用戶打開銀行網址時候,其實已經被劫持走了,真正訪問的是他們提供的釣魚網站,但是因為網址是一樣的,網站長相也是一樣的,用戶壓根不會識別出來,等您輸入銀行賬號密碼后,您的銀行卡的錢估計就自動被轉走了,因為已經知道您的賬號密碼了。對技術感興趣朋友歡迎交流我扣扣:2779571288
二、網站數據采集的10個經典方法:
我們平時說的采集網站數據、數據抓取等,其實不是真正的采集數據,在我們的職業里這個最多算是正則表達式,網頁源代碼解析而已,談不上爬蟲采集技術難度,因為這種抓取主要是采集瀏覽器打開可以看到的數據,這個數據叫做html頁面數據,比如您打開:www.jintancn.com這個網址,然后鍵盤按F12 ,可以直接看到這個網址的所有數據和源代碼,這個網站主要是提供一些爬蟲技術服務和定制,里面有些免費新工商數據,如果需要采集它數據,你可以寫個正則匹配規則html標簽,進行截取我們需要的字段信息即可。下面給大家總結一下采集類似這種工商、天眼、商標、專利、亞馬遜、淘寶、app等普遍網站常用的幾個方法,掌握這些訪問幾乎解決了90%的數據采集問題了。
方法一: 用python的request方法
用python的request方法,直接原生態代碼,python感覺是為了爬蟲和大數據而生的,我平時做的網絡分布式爬蟲、圖像識別、AI模型都是用python,因為python有很多現存的庫直接可以調用,比如您需要做個簡單爬蟲,比如我想采集百度 幾行代碼就可以搞定了,核心代碼如下:
import requests #引用reques庫
response=request.get(‘http://www.qcc.com’)#用get模擬請求
print(response.text) #已經采集出來了,也許您會覺好神奇!
方法二、用selenium模擬瀏覽器
selenium是一個專門采集反爬很厲害的網站經常使用的工具,它主要是可以模擬瀏覽器去打開訪問您需要采集的目標網站了,比如您需要采集天眼查或者企查查或者是淘寶、58、京東等各種商業的網站,那么這種網站服務端做了反爬技術了,如果您還是用python的request.get方法就容易被識別,被封IP。這個時候如果您對數據采集速度要求不太高,比如您一天只是采集幾萬條數據而已,那么這個工具是非常適合的。我當時在處理商標網時候也是用selenum,后面改用JS逆向了,如果您需要采集幾百萬幾千萬怎么辦呢?下面的方法就可以用上了。
方法三、用scrapy進行分布式高速采集
Scrapy是適用于Python的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。scrapy 特點是異步高效分布式爬蟲架構,可以開多進程 多線程池進行批量分布式采集。 比如您想采集1000萬的數據,您就可以多設置幾個結點和線程。Scrapy也有缺點的,它基于 twisted 框架,運行中的 exception 是不會干掉 reactor(反應器),并且異步框架出錯后 是不會停掉其他任務的,數據出錯后難以察覺。我2019年在做企業知識圖譜建立的時候就是用這個框架,因為要完成1.8億的全量工商企業數據采集和建立關系,維度比天眼還要多,主要是時候更新要求比天眼快。對技術感興趣朋友歡迎交流我扣扣:2779571288
方法四:用Crawley
Crawley也是python開發出的爬蟲框架,該框架致力于改變人們從互聯網中提取數據的方式。它是基于Eventlet構建的高速網絡爬蟲框架、可以將爬取的數據導入為Json、XML格式。支持非關系數據庫、支持使用Cookie登錄或訪問那些只有登錄才可以訪問的網頁。
方法五:用PySpider
相對于Scrapy框架而言,PySpider框架是一支新秀。它采用Python語言編寫,分布式架構,支持多種數據庫后端,強大的WebUI支持腳本編輯器、任務監視器、項目管理器以及結果查看器。PySpider的特點是ython腳本控制,可以用任何你喜歡的html解析包,Web界面編寫調試腳本、起停腳本、監控執行狀態、查看活動歷史,并且支持RabbitMQ、Beanstalk、Redis和Kombu作為消息隊列。用它做個兩個外貿網站采集的項目,感覺還不錯。
方法六:用Aiohttp
Aiohttp 是純粹的異步框架,同時支持 HTTP 客戶端和 HTTP 服務端,可以快速實現異步爬蟲。坑比其他框架少。并且 aiohttp 解決了requests 的一個痛點,aiohttp 可以輕松實現自動轉碼,對于中文編碼就很方便了。這個做異步爬蟲很不錯,我當時對幾個淘寶網站異步檢測商城里面的商品和價格變化后處理時用過一段時間。
方法七:asks
Python 自帶一個異步的標準庫 asyncio,但是這個庫很多人覺得不好用,甚至是 Flask 庫的作者公開抱怨自己花了好長時間才理解這玩意,于是就有好事者撇開它造了兩個庫叫做 curio 和 trio,而這里的 ask 則是封裝了 curio 和 trio 的一個 http 請求庫。
方法八:vibora
號稱是現在最快的異步請求框架,跑分是最快的。寫爬蟲、寫服務器響應都可以用,用過1個月后 就很少用了。
方法九:Pyppeteer
Pyppeteer 是異步無頭瀏覽器(Headless Chrome),從跑分來看比 Selenium + webdriver 快,使用方式是最接近于瀏覽器的自身的設計接口的。它本身是來自 Google 維護的 puppeteer。我經常使用它來提高selenium采集的一些反爬比較厲害的網站 比如裁判文書網,這種網站反爬識別很厲害。
方法十:Fiddle++node JS逆向+request (采集APP必用)
Fiddler是一個蠻好用的抓包工具,可以將網絡傳輸發送與接受的數據包進行截獲、重發、編輯、轉存等操作。我們在采集某個app時候,一般是先用Fiddler抓包 找到這個app請求這個數據時候調取的是后臺的那個接口地址,找到這個地址和請求的參數然后再模擬request。今年在處理快手、抖音的粉絲、評價、商品店鋪銷量時候就用到了Fiddle。某些APP 和網站的參數是通過js加密的,比如商標網、裁判文書網、抖音快手等這些。您如果需要請求它的源api地址就的逆向解析破解這些加密參數,可以使用node解析混淆函數。因為平時需要經常采集一些app,所以和Fiddler打交道的比較多。
前面主要是對網站和APP 數據采集和解析的一些方法,其實對這種網站爬蟲技術說無非就解決三個問題:首先是封IP問題,您可以自建代理IP池解決這個問題的,第二個問題就是驗證碼問題,這個問題可以通過python的圖像識別技術來解決或者是您直接調取第三方的打碼平臺解決。第三問題就是需要會員賬號登錄后才看到的數據,這個很簡單直接用cookie池解決。對技術感興趣朋友歡迎交流我扣扣:2779571288。
總結
以上是生活随笔為你收集整理的采集企业联系方式的10个经典方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Silverlight 2.5D RPG
- 下一篇: C#为什么会这么慢之命运之终章-真理篇f