python多线程爬取视频python多线程爬取图片
爬取時間2022/8/15
用于爬取的電腦配置:16內(nèi)存,中端CPU12核.Windows系統(tǒng)
python版本3.8.5
省略了從主網(wǎng)頁一步步爬取鏈接挖掘到m3u8文件的過程,直接以能下載到視頻的m3u8文件開始.
注:>>>>多線程爬取視頻見代碼1
>>>>> os模塊合成視頻文件及其最大合成數(shù)見代碼2
代碼如下
代碼1--下載視頻
代碼2--用os合成ts和mp4文件
代碼1的運(yùn)行結(jié)果
結(jié)果1--pycharm的顯示結(jié)果
結(jié)果2--文件管理器中的結(jié)果
代碼2的運(yùn)行結(jié)果
結(jié)果1--文件管理器中的結(jié)果
結(jié)果2--最后合成的視頻-左(網(wǎng)站視頻)-右(爬取合成后的視頻)
----------------------------------------------
代碼1及其結(jié)果可以看到(及額外說明):
1>創(chuàng)建了40個線程數(shù),
2>爬取3586個ts文件,大小為545M
3>共花費(fèi)210秒的時間
4>爬取期間電腦CPU使用率一直維持在13%-18%左右,內(nèi)存使用率無變化
用單程爬取這個視頻的話,需要整整兩個小時,(親測)
用異步協(xié)程爬取這個視頻的話,個人估計60-70秒左右.(親測用異步十秒不到就爬了700多ts文件,結(jié)果被網(wǎng)站屏蔽了)
----------------------------------------------
代碼2及其結(jié)果可以看到(及額外說明):
1>反復(fù)手動修改后的代碼,不想修改可以弄循環(huán)一次性解決
2>每次取650個ts文件合并,
3>合并成了第1-6個mp4文件,
4>最后再把1-6的MP4文件合并成最終的MP4文件.
5>再打開網(wǎng)站的視頻作對比,時長是一樣的,畫面也能做到同步,那么爬取正確
os模塊合成ts文件文件數(shù)量最大在650左右,(一次性取700個ts文件合并失敗)
網(wǎng)絡(luò)盛傳的最大數(shù)在450左右,只能說實(shí)踐出真知.東西是不斷在更新的.
----------------------------------------------
最后附上云盤的源代碼以及ts文件鏈接
代碼> ts文件>阿里云盤分享
----------------------------------------------
重點(diǎn):
>>>>僅供個人學(xué)習(xí),請于24小時內(nèi)刪除. 如要觀看視頻,請支持正版.
>>>>悠著點(diǎn)爬,勿大流量爬取.
總結(jié)
以上是生活随笔為你收集整理的python多线程爬取视频python多线程爬取图片的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: css规则中区块block,CSS的命名
- 下一篇: css伪类元素加在元素前,CSS伪类:b