python3爬虫初探(三)之正则表达式
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                python3爬虫初探(三)之正则表达式
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                前面已經寫了如何獲取網頁源碼,那么接下來就是該解析網頁并提取需要的數據了。這里簡單寫一下正則表達的用法。
首先,找個要抓取圖片的網站,獲取源碼。
import requests import re# 獲取網頁源碼 url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/' data = requests.get(url).text小黃人的圖。。。接下來瀏覽器檢查元素,發現圖片源碼格式,前面均為<img ,結尾均為 .jpg 而我們要提取的就是網址部分。
正則表達式如下:
#正則表達式三部曲 #<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黃人圖片"> regex = r'<img src="(.*?.jpg)"'#匹配網址 pa = re.compile(regex)#轉為pattern對象 ma = re.findall(pa, data)#findall 方法找到所有的符合pa的對象,添加到一個列表中并返回 print(ma)#圖片網址列表 print(len(ma))#列表長度,即找到圖片個數#截取部分列表輸出 #['http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupian-007.jpg', 'http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg', 'http://img.ivsky.com/... #25總結
以上是生活随笔為你收集整理的python3爬虫初探(三)之正则表达式的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: python3爬虫初探(二)之reque
- 下一篇: python3爬虫初探(四)之文件保存
