python爬关键词百度指数_利用python+selenium_phantomjs批量获取百度指数 第一步 分析...
一、找到百度指數(shù)對應(yīng)的數(shù)據(jù)
1.1、
1.2、
1.3、
結(jié)論:毛文本都找不著啊。根本就找不著根于百度指數(shù)數(shù)字相關(guān)的任何文本。
但是在style中找著了一個這個
將這個字符串與index.baidu.com拼起來,放進(jìn)瀏覽器。會得到一個下載圖片,這個圖片打開來是這個樣子滴。
可以看到這張圖片中包含了相對應(yīng)的百度指數(shù)中的數(shù)字。
只不過,百度通過加密,以style-css的形式,顯示出相對應(yīng)的"圖片形"的數(shù)字。
從這個角度來看.想要從百度加密原理的方式來"破解"指數(shù),是比較困難的。
二、
其困難有二、
2.1、沒有辦法確切的知道這套加密方式,可能百度有幾套加密方法,可能刷新一次,加密方式就換了一種。(我試過,刷新過后,背景圖片和css都換了。)所以“破解”這種加密方式是及其困難的。
2.2、在以后執(zhí)行過程中,如果百度增加了加密方式,或者更換了加密方式,就徹底“懵逼”。
三、
那我們能不能嘗試另外一種方式來采集百度指數(shù)呢?
當(dāng)時是有的,只不過稍微“笨”一些。
思路
3.1、像人一樣打開瀏覽器
3.2、像人一樣打開相應(yīng)的百度指數(shù)的頁面
3.3、讓機(jī)器定位百度指數(shù)的x,y坐標(biāo)
3.4、截屏
3.5、在截圖中找到第3.3部記錄下來的坐標(biāo)。截小圖
3.6、識別圖中的數(shù)字
這里只貼了一個主文件。全部代碼請見我的公眾號“爬蟲張小呆”
有代碼經(jīng)驗的同學(xué)請見我的github:
https://github.com/plus0318/BaiduIndex
總結(jié)
以上是生活随笔為你收集整理的python爬关键词百度指数_利用python+selenium_phantomjs批量获取百度指数 第一步 分析...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 将年月日转换成年_SQL数据
- 下一篇: [RK3128][Android 6.0