python代理池好难啊_新人不会自己搭建代理池?快来引用大佬的
新人不會(huì)自己搭建代理池?快來(lái)引用大佬的
對(duì)于新人學(xué)習(xí)爬蟲來(lái)說(shuō),雖然不會(huì)爬取太難的網(wǎng)站,但是有時(shí)候爬取的數(shù)據(jù)量過(guò)大的時(shí)候,也會(huì)遇到返回不了數(shù)據(jù)的問(wèn)題,這時(shí)候打開(kāi)網(wǎng)頁(yè)一看.可能會(huì)看到"你的ip訪問(wèn)頻率太高"這樣的提示,出現(xiàn)這種問(wèn)題的原因可能是,你被封ip啦.
但是爬蟲不是還得繼續(xù)不是嗎?這時(shí)候就需要借助代理來(lái)突破自己ip訪限制或者隱藏自己的ip來(lái)防止被封鎖,關(guān)于代理則可以搭建代理池來(lái)解決,讓網(wǎng)站防不勝防,但是都說(shuō)了咱是新人!!!怎么會(huì)搭建代理池那玩意,這時(shí)候就需要像牛頓學(xué)習(xí),站在巨人的肩膀上,借用他人的代理池來(lái)完成爬蟲.
在這里我們借用了崔大寫的開(kāi)源代理池代理池地址 ,具體的運(yùn)行方法崔大已經(jīng)寫好了,在這里我就想把自己運(yùn)行這個(gè)代理池所遇到的問(wèn)題做個(gè)總結(jié)
注:我在這里用的是windows系統(tǒng).
1 關(guān)于代理池的下載前提
下載代理池 首先你需要?jiǎng)?chuàng)建一個(gè)github賬號(hào)然后安裝git,具體的流程請(qǐng)看git,因?yàn)間it的安裝在官網(wǎng)下載那簡(jiǎn)直是龜速,這里我分享我的網(wǎng)盤鏈接給大家,鏈接:https://pan.baidu.com/s/1gb6mPItCl9OLOAWSlryZMA
提取碼:q1o4
(這個(gè)版本不是最新的)
2 關(guān)于代理池的下載
安裝好git了我們打開(kāi)cmd運(yùn)行命令符,移動(dòng)到想安裝的盤,然后做出輸入git clone https://github.com/Python3WebSpider/ProxyPool.git ,這樣代理池就下載到本地啦,具體步驟如下圖
3 關(guān)于運(yùn)行所需要的條件
在這里我選擇的是常規(guī)方式運(yùn)行,沒(méi)有用到docker,關(guān)于常規(guī)方式運(yùn)行,需要滿足以下條件
1.Python>=3.6
2. Redis
3. 安裝依賴包
關(guān)于python的下載在這里推薦anaconda下載,安裝最新的anaconda就好啦(雖然后面無(wú)法安裝tensorflow,不過(guò)我們只爬蟲的嘛),anaconda的安裝教程地址是https://blog.csdn.net/weixin_43715458/article/details/100096496,當(dāng)然如果你安裝過(guò)anaconda或者python請(qǐng)略過(guò)這步,但是請(qǐng)確保你的python版本.后面打開(kāi)代理池我用的是pycharam所以在這里在放一個(gè)鏈接關(guān)于anaconda安裝與pycharm的配置anaconda與pycharm配置,啥都沒(méi)有安裝的請(qǐng)從次鏈接開(kāi)始.
關(guān)于Redis的安裝教程請(qǐng)參考此此鏈接Redis安裝
另外redis常用的可視化工具 Redis Desktop Manager,但是0.9.4以上要給錢的,不過(guò)這里有免費(fèi)的版本,鏈接redis可視化工具下載
關(guān)于依賴包的安裝需要在虛擬環(huán)境下安裝,這里我使用的是conda創(chuàng)建的虛擬環(huán)境,虛擬環(huán)境的安裝請(qǐng)參考此鏈接conda安裝虛擬環(huán)境,在這里繼續(xù)強(qiáng)調(diào)你的python版本不能低于3.6,虛擬環(huán)境安裝好了 請(qǐng)開(kāi)啟你的虛擬環(huán)境 然后移動(dòng)到你代理池的文件位置,運(yùn)行這個(gè)命令
pip3 install -r requirements.txt(安裝了anaconda的命令為pip install -r requirements.txt),具體情況如下圖所示
注:這里yu是我的虛擬環(huán)境名稱 我已經(jīng)安裝好了依賴包了 這里做了個(gè)演示.
4 關(guān)于運(yùn)行
關(guān)于運(yùn)行其實(shí)也沒(méi)啥好說(shuō)的了,打開(kāi)你的pycharm打開(kāi)前面下載的代理池文件就好啦,這里對(duì)崔大寫的一些做下解釋,
關(guān)于這里 其實(shí)就在你的setting.py文件里的這里
你可以根據(jù)自己的情況進(jìn)行修改,
關(guān)于這里
同樣在setting.py文件里的
你可以根據(jù)自己的需要修改測(cè)試地址,構(gòu)建專屬于你所爬網(wǎng)站的代理池.
最后,打開(kāi)你的 run.py文件點(diǎn)運(yùn)行就能愉快的開(kāi)啟代理池啦.
原文鏈接:https://blog.csdn.net/weixin_48257295/article/details/107707037
總結(jié)
以上是生活随笔為你收集整理的python代理池好难啊_新人不会自己搭建代理池?快来引用大佬的的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 自然语言处理(NLP)语义分析--文本分
- 下一篇: Codeforces 892E Envy