python爬取360百科获取春晚基本信息
生活随笔
收集整理的這篇文章主要介紹了
python爬取360百科获取春晚基本信息
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
前言
之前看到大佬爬取維基百科獲取春晚的信息,做了些數據分析,我也想跟著試一下,但是…
不過我居然在360百科上面發現了多年春晚的信息,便選擇從360百科爬取。
站點分析
從網站可以看出,它的每個詞條應該對應著唯一的一個html頁面
我們搜索的參數并沒有直接通過get在地址欄顯示出來,而是藏在了cookie當中,也就是我們可以通過修改cookie了打開不同年份的頁面。
但是我圖個簡單沒選擇這種方式,而是選擇直接在搜索框輸入內容進行詞條的切換。
數據獲取
獲取不同年份
利用selenium根據這個id選中輸入框,并輸入相應內容
通過這個方法就能獲取指定年份的春晚信息了,修改KEYWORD還能獲取其他詞條指定年份的信息。
獲取基本信息
通過這個class獲取一對對的基本信息用字典存了起來
整體運行
if __name__ == '__main__':for year in range(1983,2020):url = get_url(year)print(url)dict = get_info(url)print(dict)save_to_mongo('chunwan',dict)最后通過循環整體運行起來,save_to_mongo是我自己封裝的工具類,用來存到MongoDB
結果展示
總結
以上是生活随笔為你收集整理的python爬取360百科获取春晚基本信息的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SCCM 2007 R2 setp by
- 下一篇: 数据分析思维:零售行业