當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫爬取数据如何将br去掉_Python怎么去除爬取下来的网站中的一些转义字符串 - 收获啦...

發(fā)布時(shí)間：2023/12/20 python 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫爬取数据如何将br去掉_Python怎么去除爬取下来的网站中的一些转义字符串 - 收获啦... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

基本方法

其實(shí)用python爬取網(wǎng)頁很簡單，只有簡單的幾句話

這樣就可以獲得到頁面的內(nèi)容。接下來再用正則匹配去匹配所需要的內(nèi)容就行了。但是，真正要做起來，就會(huì)有各種各樣的細(xì)節(jié)問題。

2.登錄

這是一個(gè)需要登錄認(rèn)證的網(wǎng)站。也不太難，只要導(dǎo)入cookielib和urllib庫就行。

這樣就裝載進(jìn)一個(gè)cookie，用urlOpener去open登錄以后就可以記住信息。

3.斷線重連

如果只是做到上面的程度，不對(duì)open進(jìn)行包裝的話，只要網(wǎng)絡(luò)狀況有些起伏，就直接拋出異常，退出整個(gè)程序，是個(gè)很不好的程序。這個(gè)時(shí)候，只要對(duì)異常進(jìn)行處理，多試幾次就行了：

4.正則匹配

其實(shí)正則匹配并不算是一個(gè)特別好的方法，因?yàn)樗娜蒎e(cuò)性很不好，網(wǎng)頁要完全統(tǒng)一。如果有稍微的不統(tǒng)一，就會(huì)失敗。后來看到說有根據(jù)xpath來進(jìn)行選取的，下次可以嘗試一下。

寫正則其實(shí)是有一定技巧的：非貪婪匹配。比如這樣一個(gè)標(biāo)簽：hello，要取出a來，如果寫成這樣的表達(dá)式，就不行了：hello。因?yàn)?進(jìn)行了貪婪匹配。這是要用.?：hello。

跨行匹配。實(shí)現(xiàn)跨行有一種思路是運(yùn)用DOTALL標(biāo)志位，這樣.就會(huì)匹配到換行。但是這樣一來，整個(gè)匹配過程就會(huì)變得很慢。本來的匹配是以行為單位的。整個(gè)過程最多就是O(nc2)，n是行數(shù)，c是平均列數(shù)?，F(xiàn)在極有可能變?yōu)镺((nc)2)。我的實(shí)現(xiàn)方案是運(yùn)用來匹配換行，這樣可以明確指出匹配最多跨躍多少行。比如：abc\s*\s*def，就指出查找的是隔一行的。(.)?就可以指定是匹配盡可能少的行。

這里其實(shí)還要注意一個(gè)點(diǎn)。有的行末是帶有\(zhòng)r的。也就是說一行是以\r結(jié)尾的。當(dāng)初不知道這一點(diǎn)，正則就調(diào)試了很久?，F(xiàn)在直接用\s，表示行末空格和\r。

無捕獲分組。為了不對(duì)捕獲的分組造成影響，上面的(.)可以改為(?:.)，這樣捕獲分組時(shí)，就會(huì)忽略它。

單括號(hào)要進(jìn)行轉(zhuǎn)義。因?yàn)閱卫ㄌ?hào)在正則里是用來表示分組的，所以為了匹配單括號(hào)就進(jìn)行轉(zhuǎn)義。正則字符串最好用的是帶有r前綴的字符串，如果不是的話，則要對(duì)\再進(jìn)行轉(zhuǎn)義。

快速正則。寫了那么多模式，也總結(jié)出一規(guī)律出來。先把要匹配的字符相關(guān)的段落拿出來。要匹配的東西用(.?)代替。把換行替換為字符串\s\s*，再去掉行首行末的空格。整個(gè)過程在vim中可以很快就寫好。

5.Excel操作

這次的數(shù)據(jù)是放進(jìn)Excel的。搜索Excel，可以得出幾個(gè)方案來，一個(gè)是用xlrt/xlwt庫，這個(gè)不管電腦上是否安裝了Excel，都可以運(yùn)行，但只能是xls格式的。還有一個(gè)是直接包裝了com，需要電腦上安裝了軟件才行。這里采用的是前一種。

基本的讀寫沒有問題。但是數(shù)據(jù)量一大起來，就有問題了。內(nèi)存不夠。程序一跑起來，內(nèi)存占用就一點(diǎn)一點(diǎn)往上漲。后面再查了一下，知道要用flush_row_data。但是還是會(huì)出錯(cuò)。一看內(nèi)存占用，沒有什么問題，一直很平穩(wěn)。但最后還是會(huì)出現(xiàn)memoryerror。這真是見鬼了。又是反復(fù)地查，反復(fù)地運(yùn)行。一點(diǎn)結(jié)果都沒有。要命的是bug只在數(shù)據(jù)量大起來才出現(xiàn)，而等數(shù)據(jù)量大起來往往要好幾個(gè)小時(shí)，這debug的成本實(shí)在是太高了。一個(gè)偶然的機(jī)會(huì)，突然發(fā)現(xiàn)內(nèi)存占用，雖然總體平穩(wěn)，但是會(huì)規(guī)律性的出現(xiàn)小的高漲，而這規(guī)律性，會(huì)不會(huì)和flush_row_data，有關(guān)。一直疑惑的是data被flush到了哪里。原來xlwt的作法是很蛋疼的作法。把數(shù)據(jù)存在內(nèi)存里，或者flush到一個(gè)temp，到save的時(shí)候，再一次性寫入。而問題正出在這一次性寫入，內(nèi)存猛漲。那我要flush_row_data何用？為什么不一開始就flush進(jìn)要寫入的地方。

行數(shù)限制。這個(gè)是xls格式本身決定的，最多行數(shù)只能是65536。而且數(shù)據(jù)一大，文件打開也不方便。

結(jié)合以上兩點(diǎn)，最終采取了這么一個(gè)策略，如果行數(shù)是1000的倍數(shù)，進(jìn)行一次flush，如果行數(shù)超過65536，新開一個(gè)sheet，如果超過3個(gè)sheet，則新建一個(gè)文件。為了方便，把xlwt包裝了一下：

6.轉(zhuǎn)換網(wǎng)頁特殊字符

由于網(wǎng)頁也有自己獨(dú)特的轉(zhuǎn)義字符，在進(jìn)行正則匹配的時(shí)候就有些麻煩。在官方文檔中查到一個(gè)用字典替換的方案，私以為不錯(cuò)，拿來做了一些擴(kuò)充。其中有一些是為保持正則的正確性。

7.總結(jié)

最終的程序要跑很久，其中網(wǎng)絡(luò)通信時(shí)間占了大部分。是不是可以考慮用多線程重構(gòu)一下？

總結(jié)

以上是生活随笔為你收集整理的python爬虫爬取数据如何将br去掉_Python怎么去除爬取下来的网站中的一些转义字符串 - 收获啦...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： (附源码)计算机毕业设计ssm房屋租赁管
下一篇： c语言使用三种方法计算圆周率,求用三种方

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python爬虫爬取数据如何将br去掉_Python怎么去除爬取下来的网站中的一些转义字符串 - 收获啦...

總結(jié)