python爬虫实现网页采集器
生活随笔
收集整理的這篇文章主要介紹了
python爬虫实现网页采集器
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
import requests #導入requests模塊
#UA:User-Agnet:請求載體身份標識
#UA檢測:各大門戶網站的服務器都會檢測請求載體的身份標識,如果請求載體的身份標識為某一款服務器,
#則該請求為正常請求,如果請求載體的身份標識為某個爬蟲程序,則服務器很可能拒絕該請求
#UA偽裝:將爬蟲程序偽裝成某款瀏覽器
#指定URL
#如果該python文件為入口程序,則執行if語句下的代碼
if __name__=="__main__":url='https://www.sogou.com/web'#進行UA偽裝,模擬瀏覽器,注意將User-Agent封裝在一個字典中headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 '}#url攜帶參數,參數封裝在一個字典中word=input('enter a word:')params ={'query':word}#向服務器發起請求,url攜帶參數,并在請求過程中處理了參數response=requests.get(url=url,headers=headers,params=params)#獲取字符串形式的響應數據page_text=response.text#持久化存儲,寫入一個文件fileName=word+'.html'with open(fileName,'w',encoding='utf8') as fp:fp.write(page_text)print(fileName+'網頁采集成功!!!')
總結
以上是生活随笔為你收集整理的python爬虫实现网页采集器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Javaweb maven项目tomca
- 下一篇: Python算法教程:强连通分量