微博爬虫实践---搜索关键词
生活随笔
收集整理的這篇文章主要介紹了
微博爬虫实践---搜索关键词
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
需求:指定搜索關鍵詞,限定時間段、原創,抓取后存入EXcel或者Mysql
原理:模擬瀏覽器打開網址,輸入關鍵詞,python解析dom獲取需要信息,存入excel或者mysql
技術點:
1.爬蟲框架選取 BS4解析
2.模擬瀏覽器行為 python+selenium+Firefox
3.存檔 excel相關庫、mysql相關庫
4.關鍵詞、時間段可配置? ConfigParser庫
5.數據庫 編號遞增 更新時間
?
編寫遇到的問題:
1.登錄問題? 模擬賬號密碼登入或者cookie登錄
2.頁面無內容 真實無內容、數據沒有加載出來 有驗證碼防刷??
3.頁面元素沒有導致失敗 加入隱形等待元素不出現一直等待
4.無界面操作 Chrome可設置無界面 最新selenium不支持PJS無界面框架慎用
?
轉載于:https://www.cnblogs.com/aeip/p/9243483.html
總結
以上是生活随笔為你收集整理的微博爬虫实践---搜索关键词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ICML 2018大奖出炉:伯克利、MI
- 下一篇: win32绘图:绘制直线 矩形 圆形 曲