python 乡镇轮廓 高德_Python爬虫终极解决方案-以获取高德地图小区边界为例
0 前言
本文工具使用anaconda3.5+chrome
一般爬蟲(chóng)分為非可視化爬蟲(chóng)和可視化爬蟲(chóng)。
①非可視化爬蟲(chóng):通過(guò)抓包獲取數(shù)據(jù)接口,使用requests、urlib2、urlib3直接請(qǐng)求頁(yè)面源碼或異步加載的JSON數(shù)據(jù)。
②可視化爬蟲(chóng):使用selenium工具模擬人為操作,獲取頁(yè)面源碼解析數(shù)據(jù)。
1 高德地圖
最近在研究高德地圖小區(qū)邊界經(jīng)緯度坐標(biāo)穿獲取的問(wèn)題,本來(lái)想先嘗試使用requests,發(fā)現(xiàn)高德的反爬措施比一般網(wǎng)站都要嚴(yán),單獨(dú)通過(guò)非可視化爬蟲(chóng)請(qǐng)求基本上無(wú)法獲取到想要的數(shù)據(jù)。
抓包
打開(kāi)高德地圖,在搜索框輸入一個(gè)小區(qū),如重慶大學(xué)B區(qū),如下圖所示。
我們發(fā)現(xiàn)了是通過(guò)這個(gè)接口https://ditu.amap.com/detail/get/detail?id=B0017819Q6 GET方法獲取到的異步JSON數(shù)據(jù),有我們想要的經(jīng)緯度坐標(biāo)串。但是想要自動(dòng)獲取有兩個(gè)前提條件,一是需要知道興趣面的ID,如上面的重慶大學(xué)B區(qū)ID B0017819Q6;你可以嘗試只請(qǐng)求上述連接,你會(huì)發(fā)現(xiàn)很快就會(huì)失效, 即使攜帶現(xiàn)有的cookie也不一定能請(qǐng)求成功。因此二是如何能保證高德地圖能返回正常的數(shù)據(jù)。
2 準(zhǔn)備工作
SELENIUM
考慮到獲取小區(qū)邊界的事是一勞永逸,數(shù)據(jù)總量不大,可以降低請(qǐng)求頻率。直接使用selenium工具模擬人為操作。
① 安裝selenium
#安裝selenium
pip install selenium
② 下載chromedriver
ChromeDriver倉(cāng)庫(kù)下載對(duì)應(yīng)的版本,chrome版本在瀏覽器network任一請(qǐng)求中請(qǐng)求頭USER-AGENT中可以查看。
然后將chromedriver.exe拷貝至anaconda安裝目錄下。
browsermob-proxy
BrowserMob Proxy,簡(jiǎn)稱 BMP,它是一個(gè) HTTP 代理服務(wù),利用它我們可以截獲 HTTP 請(qǐng)求和響應(yīng)內(nèi)容,另外還可以把 Performance data 輸出成一個(gè) HAR 文件。
① 下載地址,下載完后解壓。
② browsermobproxy為Java開(kāi)發(fā)的代理工具,因此還需要安裝Java壞境,此處略過(guò)。
3 DEMO
代碼
import random
import re
import time
from browsermobproxy import Server
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
server = Server(r'C:\Users\black\Downloads\browsermob-proxy-2.1.4-bin\browsermob-proxy-2.1.4\bin\browsermob-proxy.bat')
server.start()
proxy = server.create_proxy()
chrome_options = Options()
chrome_options.add_argument('--proxy-server={0}'.format(proxy.proxy)) # 加代理抓包
chrome_options.add_argument('--ignore-certificate-errors') # 忽略無(wú)效證書(shū)的問(wèn)題
driver = webdriver.Chrome(chrome_options=chrome_options)
base_url = 'https://www.amap.com/'
proxy.new_har("amap", options={'captureHeaders': True, 'captureContent': True})
driver.get(base_url)
input = driver.find_element_by_id('searchipt') #獲取輸入框
input.clear() #清空輸入框
input.send_keys("重慶大學(xué)B區(qū)") #輸入關(guān)鍵詞
time.sleep(random.randint(2, 5))
select = driver.find_elements_by_class_name("autocomplete-suggestion") #獲取聯(lián)想詞框
time.sleep(random.randint(2, 5))
select[0].click() #點(diǎn)擊出來(lái)的第一個(gè)聯(lián)想詞
current_url = driver.current_url
time.sleep(5)
result = proxy.har
print(result)
hhh = re.findall('(\d{3}\.\d{6},\d{2}\.\d{6}_)', str(result)) #提取坐標(biāo)串
print(hhh)
server.stop()
driver.quit()
打印出來(lái)的result如下圖所示:
通過(guò)第一張圖片的坐標(biāo)串在上述結(jié)果中搜索,發(fā)現(xiàn)只有一個(gè)坐標(biāo)串,每個(gè)經(jīng)緯度之間有“_”隔開(kāi)。而且點(diǎn)狀數(shù)據(jù)是不存在該形式坐標(biāo)串的。
解析的坐標(biāo)串列表組合一下就OK了。
說(shuō)明
① 必須要添加chrome_options.add_argument('--ignore-certificate-errors') 參數(shù),否則每請(qǐng)求一個(gè)網(wǎng)頁(yè),都會(huì)提示“您的鏈接不是私密鏈接”。
② 可以通過(guò)請(qǐng)求的url篩選出請(qǐng)求明細(xì),用解析json的方式逐層獲取坐標(biāo)串,但這里選擇用正則表達(dá)式去提取坐標(biāo)串更為簡(jiǎn)單。
4 總結(jié)
爬蟲(chóng)這東西只要顯示在瀏覽器上的東西基本都是可以抓取的(但是要注意尺度,不要給別人服務(wù)器太大壓力),但是往往有非常的反爬措施,結(jié)合fiddler4這種代理抓包軟件聯(lián)想應(yīng)該能找到一個(gè)直接將chrome瀏覽器所有的請(qǐng)求記錄全部導(dǎo)出來(lái)的方法,可以解決幾乎所有的數(shù)據(jù)獲取問(wèn)題。
總結(jié)
以上是生活随笔為你收集整理的python 乡镇轮廓 高德_Python爬虫终极解决方案-以获取高德地图小区边界为例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
                            
                        - 上一篇: 找工作,还是找户口?
 - 下一篇: 瀑布流插件vue-masonry(使用和