當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python爬关键词百度指数_利用python+selenium_phantomjs批量获取百度指数第一步分析...

發(fā)布時間：2023/12/16 python 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬关键词百度指数_利用python+selenium_phantomjs批量获取百度指数第一步分析... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、找到百度指數(shù)對應(yīng)的數(shù)據(jù)

1.1、

1.2、

1.3、

結(jié)論：毛文本都找不著啊。根本就找不著根于百度指數(shù)數(shù)字相關(guān)的任何文本。

但是在style中找著了一個這個

將這個字符串與index.baidu.com拼起來，放進(jìn)瀏覽器。會得到一個下載圖片，這個圖片打開來是這個樣子滴。

可以看到這張圖片中包含了相對應(yīng)的百度指數(shù)中的數(shù)字。

只不過，百度通過加密，以style-css的形式，顯示出相對應(yīng)的"圖片形"的數(shù)字。

從這個角度來看.想要從百度加密原理的方式來"破解"指數(shù)，是比較困難的。

二、

其困難有二、

2.1、沒有辦法確切的知道這套加密方式，可能百度有幾套加密方法，可能刷新一次，加密方式就換了一種。(我試過，刷新過后，背景圖片和css都換了。)所以“破解”這種加密方式是及其困難的。

2.2、在以后執(zhí)行過程中，如果百度增加了加密方式，或者更換了加密方式，就徹底“懵逼”。

三、

那我們能不能嘗試另外一種方式來采集百度指數(shù)呢？

當(dāng)時是有的，只不過稍微“笨”一些。

思路

3.1、像人一樣打開瀏覽器

3.2、像人一樣打開相應(yīng)的百度指數(shù)的頁面

3.3、讓機(jī)器定位百度指數(shù)的x,y坐標(biāo)

3.4、截屏

3.5、在截圖中找到第3.3部記錄下來的坐標(biāo)。截小圖

3.6、識別圖中的數(shù)字

這里只貼了一個主文件。全部代碼請見我的公眾號“爬蟲張小呆”

有代碼經(jīng)驗的同學(xué)請見我的github：

https://github.com/plus0318/BaiduIndex

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。