python sub 不区分大小写_Python网络爬虫入门篇
1. 預備知識
學習者需要預先掌握Python的數字類型、字符串類型、分支、循環、函數、列表類型、字典類型、文件和第三方庫使用等概念和編程方法。
Python入門篇:https://www.cnblogs.com/wenwei-blog/p/10592541.html
2. Python爬蟲基本流程
a. 發送請求
使用http庫向目標站點發起請求,即發送一個Request,Request包含:請求頭、請求體等。
Request模塊缺陷:不能執行JS 和CSS 代碼。
b. 獲取響應內容
如果requests的內容存在于目標服務器上,那么服務器會返回請求內容。
Response包含:html、Json字符串、圖片,視頻等。
c. 解析內容
對用戶而言,就是尋找自己需要的信息。對于Python爬蟲而言,就是利用正則表達式或者其他庫提取目標信息。
解析html數據:正則表達式(RE模塊),第三方解析庫如Beautifulsoup,pyquery等
解析json數據:json模塊
解析二進制數據:以wb的方式寫入文件
d. 保存數據
解析得到的數據可以多種形式,如文本,音頻,視頻保存在本地。
數據庫(MySQL,Mongdb、Redis)
文件
3. Requests庫入門
Requests是用python語言基于urllib編寫的,采用的是Apache2 Licensed開源協議的HTTP庫。
3.1 Requests庫安裝和測試
安裝:
Win平臺:以“管理員身份運行cmd”,執行 pip install requests
測試:
3.2 Requests庫的7個主要方法
方法 說明 requests.request() 構造一個請求,支撐一下個方法的基礎方法。 requests.get() 獲取HTML網頁的主要方法,對應HTTP的GET requests.head() 獲取HTML網頁投信息的方法,對應HTTP的HEAD requests.post() 向HTML網頁提交POST請求的方法,對應HTTP的POST requests.put() 向HTML網頁提交PUT請求的方法,對應HTTP的PUT requests.patch() 向HTML網頁提交局部修改請求,對應HTTP的PATCH requests.delete() 向HTML網頁提交刪除請求,對應HTTP的DELETE
帶可選參數的請求方式:
requests.request(method,url,**kwargs)
method:請求方式,對應get/put/post等7種
url:獲取頁面的url鏈接
**kwargs:控制訪問的參數,均為可選項,共以下13個
params:字典或字節系列,作為參數增加到url中
>>> kv = {'key1':'value1','key2':'value2'}>>> r = requests.request('GET','http://python123.io/ws',params=kv)>>> print(r.url)https://python123.io/ws?key1=value1&key2=value2data:字典、字節系列或文件對象,作為requests的內容
1
2
3
4
>>> kv = {'key1':'value1','key2':'value2'}
>>> r = requests.request('POST','http://python123.io/ws',data=kv)
>>> body = '主題內容'
>>> r = requests.request('POST','http:///python123.io/ws',data=body)
json:JSON格式的數據,作為equests的內容
1
2
>>> kv = {'key1':'value1','key2':'value2'}
>>> r = requests.request('POST','http://python123.io/ws',json=kv)
headers:字典,HTTP定制頭
1
2
>>> hd = {'user-agent':'Chrome/10'}
>>> r = requests.request('POST','http://www.baidu.com',headers=hd)
cookies:字典或cookieJar,Request中的cookie
files:字典類型,傳輸文件
1
2
>>> f = {'file':open('/root/po.sh','rb')}
>>> r = requests.request('POST','http://python123.io/ws',file=f)
timeout:設置超時時間,秒為單位。
1
>>> r = requests.request('GET','http://python123.io/ws',timeout=30)
proxies:字典類型,設置訪問代理服務器,可以增加登錄驗證。
1
2
3
>>> pxs = {'http':'http://user:pass@10.10.10.2:1234',
... 'https':'https://10.10.10.3:1234'}
>>> r = requests.request('GET','http://www.baidu.com',proxies=pxs)
allow_redirects:True/False,默認為True,重定向開關
stream:True/False,默認為True,獲取內容立即下載開關
verify:rue/False,默認為True,認證SSL證書開關
Cert:本地SSL證書路徑
auth:元組類型,支持HTTP認證功能
3.3 Requests庫的get()方法
3.4 Requests的Response對象
Response對象包含服務器返回的所有信息,也包含請求的Request信息
Response對象的屬性
3.5 理解Response的編碼
注意:編碼為ISO-8859-1不支持編譯中文,需要設置 r = encoding="utf-8"
3.6 理解Requests庫的異常
Requests庫支持常見的6種連接異常
注意:網絡連接有風險。異常處理很重要。raise_for_status()如果不等于200則產生異常requests.HTTPError。
3.7 爬取網頁的通用代碼框架
import requestsdef getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "產生異常"if __name__ == "__main__": url = "http://www.baidu.com" print(getHTMLText(url))4. 網絡爬蟲的“盜亦有道”:Robots協議
robots是網站跟爬蟲間的協議,robots.txt(統一小寫)是一種存放于網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的漫游器(又稱網絡蜘蛛),此網站中的哪些內容是不應被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫。robots.txt應放置于網站的根目錄下。
網絡爬蟲的尺寸:
4.1 網絡爬蟲引發的問題
a. 網絡爬蟲的“性能”騷擾
web默認接受人類訪問,由于網絡爬蟲的頻繁訪問會給服務器帶來巨大的額資源開銷。
b. 網絡爬蟲的法律風險
服務器上的數據有產權歸屬,網絡爬蟲獲取數據牟利將帶來法律風險
c. 網絡爬蟲的隱私泄露
網絡爬蟲可能具備突破簡單控制訪問的能力,獲取被保護的數據從而泄露個人隱私。
4.2 網絡爬蟲限制
a. 來源審查:判斷User-Agent進行限制
檢查來訪HTTP協議頭的user-agent域,只響應瀏覽器或友好爬蟲的訪問
b. 發布公告:Robots協議
告知所有爬蟲網站的爬取策略,要求遵守Robots協議
4.3 真實的Robots協議案例
京東的Robots協議:
https://www.jd.com/robots.txt
#注釋,*代表所有,/代表根目錄
4.4 robots協議的遵守方式
對robots協議的理解
自動或人工識別roboes.txt,z再進行內容爬取。
robots協議是建議但非約束性,網絡爬蟲可以補遵守,但存在法律風險。
原則:人類行為可以補參考robots協議,比如正常閱覽網站,或者較少爬取網站頻率。
5. Requests庫網絡爬蟲實戰
5.1 京東商品頁面爬取
目標頁面地址:https://item.jd.com/5089267.html
實例代碼:
import requestsurl = 'https://item.jd.com/5089267.html'try: r = requests.get(url) r.raise_for_status() r.encoding =r.apparent_encoding print(r.text[:1000])except: print("爬取失敗")結果:
5.2 當當網商品頁面爬取
目標頁面地址:http://product.dangdang.com/26487763.html
代碼:
import requestsurl = 'http://product.dangdang.com/26487763.html'try: r = requests.get(url) r.raise_for_status() r.encoding =r.apparent_encoding print(r.text[:1000])except IOError as e: print(str(e))出現報錯:
HTTPConnectionPool(host='127.0.0.1', port=80): Max retries exceeded with url: /26487763.html (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))
報錯原因:當當網拒絕不合理的瀏覽器訪問。
查看初識的http請求頭:
print(r.request.headers)
代碼改進:構造合理的HTTP請求頭
import requestsurl = 'http://product.dangdang.com/26487763.html'try: kv = {'user-agent':'Mozilla/5.0'} r = requests.get(url,headers=kv) r.raise_for_status() r.encoding =r.apparent_encoding print(r.text[:1000])except IOError as e: print(str(e))結果正常爬取:
5.3 百度360搜索引擎關鍵詞提交
百度關鍵詞接口:http://www.baidu.com/s?wd=keyword
代碼實現:
import requestskeyword = "python"try: kv = {'wd':keyword} r = requests.get("http://www.baidu.com/s",params=kv) print(r.request.url) r.raise_for_status() print(len(r.text))except IOError as e: print(str(e))執行結果:
360關鍵詞接口:
http://www.so.com/s?q=keyword
代碼實現:
import requestskeyword = "Linux"try: kv = {'q':keyword} r = requests.get("http://www.so.com/s",params=kv) print(r.request.url) r.raise_for_status() print(len(r.text))except IOError as e: print(str(e))執行結果:
5.4 網絡圖片爬取和存儲
網絡圖片鏈接的格式:
http://FQDN/picture.jpg
校花網:http://www.xiaohuar.com
選擇一個圖片地址:http://www.xiaohuar.com/d/file/20141116030511162.jpg
實現代碼:
import requestsimport osurl = "http://www.xiaohuar.com/d/file/20141116030511162.jpg"dir = "D://pics//"path = dir + url.split('/')[-1] #設置圖片保存路徑并以原圖名名字命名try: if not os.path.exists(dir): os.mkdir(dir) if not os.path.exists(path): r = requests.get(url) with open(path,'wb') as f: f.write(r.content) f.close() print("文件保存成功") else: print("文件已存在")except IOError as e: print(str(e))查看圖片已經存在:
5.5 ip地址歸屬地查詢
ip地址歸屬地查詢網站接口:http://www.ip138.com/ips138.asp?ip=
實現代碼:
import requestsurl = "http://www.ip38.com/ip.php?ip="try: r = requests.get(url+'104.193.88.77') r.raise_for_status() r.encoding = r.apparent_encoding print(r.text)except IOError as e: print(str(e))5.5 有道翻譯翻譯表單提交
打開有道翻譯,在開發者模式依次單擊“Network”按鈕和“XHR”按鈕,找到翻譯數據:
import requestsimport jsondef get_translate_date(word=None): url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule" #post參數需要放在請求實體里,構建一個新字典 form_data = {'i': word, 'from': 'AUTO', 'to': 'AUTO', 'smartresult': 'dict', 'client': 'fanyideskweb', 'salt': '15569272902260', 'sign': 'b2781ea3e179798436b2afb674ebd223', 'ts': '1556927290226', 'bv': '94d71a52069585850d26a662e1bcef22', 'doctype': 'json', 'version': '2.1', 'keyfrom': 'fanyi.web', 'action': 'FY_BY_REALTlME' } #請求表單數據 response = requests.post(url,data=form_data) #將JSON格式字符串轉字典 content = json.loads(response.text) #打印翻譯后的數據 print(content['translateResult'][0][0]['tgt'])if __name__ == '__main__': word = input("請輸入你要翻譯的文字:") get_translate_date(word)執行結果:
6 Beautiful Soup庫入門
6.1 簡介
Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析“標簽樹”等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。
Beautiful Soup自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時,Beautiful Soup就不能自動識別編碼方式了。然后,你僅僅需要說明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器,為用戶靈活地提供不同的解析策略或強勁的速度。
6.2 Beautiful Soup安裝
目前,Beautiful Soup的最新版本是4.x版本,之前的版本已經停止開發,這里推薦使用pip來安裝,安裝命令如下:
pip install beautifulsoup4
驗證安裝:
from bs4 import BeautifulSoup
soup = BeautifulSoup('
Hello
','html.parser')print(soup.p.string)
執行結果如下:
Hello
注意:這里雖然安裝的是beautifulsoup4這個包,但是引入的時候卻是bs4,因為這個包源代碼本身的庫文件名稱就是bs4,所以安裝完成后,這個庫文件就被移入到本機Python3的lib庫里,識別到的庫文件就叫作bs4。
因此,包本身的名稱和我們使用時導入包名稱并不一定是一致的。
6.3 BeautifulSoup庫解析器
解析器
使用方法
條件
bs4的HTML解析器
BeautifulSoup(mk,'html.parser')
安裝bs4庫
lxml的HTML解析器
BeautifulSoup(mk,'lxml')
pip install lxml
lxml的XML解析器
BeautifulSoup(mk,'xml')
pip install lxml
html5lib的解析器
BeautifulSoup(mk,'htmlslib')
pip install html5lib
如果使用lxml,在初始化BeautifulSoup時,把第二個參數改為lxml即可:
from bs4 import BeautifulSoupsoup = BeautifulSoup('Hello
','lxml')print(soup.p.string)6.4 BeautifulSoup的基本用法
BeautifulSoup類的基本元素
基本元素
說明
Tag
標簽,基本信息組織單元,分別用<>和>標明開頭和結尾
Name
標簽的名字,
.nameAttributes
標簽的屬性,字典形式組織,格式:.attrs
NavigableString
標簽內非屬性字符串,<>...<>中字符串,格式:.string
Comment
標簽內字符串的注釋部分,一種特殊的Comment類型
實例展示BeautifulSoup的基本用法:
>>> from bs4 import BeautifulSoup>>> import requests>>> r = requests.get("http://python123.io/ws/demo.html")>>> demo = r.text>>> demo'This is a python demo pageThe demo python introduces several python courses.
Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:Basic Python and Advanced Python.
'>>> soup = BeautifulSoup(demo,"html.parser")>>> soup.title #獲取標題This is a python demo page>>> soup.a #獲取a標簽Basic Python>>> soup.title.string'This is a python demo page'>>> soup.prettify() #輸出html標準格式內容' This is a python demo pageThe demo python introduces several python courses.
Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses: Basic Python and Advanced Python .
'>>> soup.a.name #每個都有自己的名字,通過.name獲取'a'>>> soup.p.name'p'>>> tag = soup.a>>> tag.attrs{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}>>> tag.attrs['class']['py1']>>> tag.attrs['href']'http://www.icourse163.org/course/BIT-268001'>>> type(tag.attrs)>>> type(tag)>>>6.5 標簽樹的遍歷
標簽樹的下行遍歷
標簽樹的上行遍歷:遍歷所有先輩節點,包括soup本身
標簽樹的平行遍歷:同一個父節點的各節點間
實例演示:
from bs4 import BeautifulSoupimport requestsdemo = requests.get("http://python123.io/ws/demo.html").textsoup = BeautifulSoup(demo,"html.parser")#標簽樹的上行遍歷print("遍歷兒子節點:")for child in soup.body.children: print(child) print("遍歷子孫節點:")for child1 in soup.body.descendants: print(child1) print(soup.title.parent)print(soup.html.parent)for parent in soup.a.parents: if parent is None: print(parent) else: print(parent.name)#標簽樹的平行遍歷print(soup.a.next_sibling)print(soup.a.next_sibling.next_sibling)print(soup.a.previous_sibling)7 正則表達式
正則表達式是處理字符串的強大工具,它有自己特定的語法結構,實現字符串的檢索、替換、匹配驗證都可以。對于爬蟲來說,
從HTML里提取想要的信息非常方便。python的re庫提供了整個正則表達式的實現
7.1 案例引入
這里介紹一個正則表達式測試工具http://tool.oschina.net/regex,輸入待匹配的文本,然選擇常用的正則表達式,得到相應的匹配結果,
適合新手入門。這里輸入:
hello,my phone is 18898566588 and email is david@gmail.com, and wen is https://www.cnblogs.com/wenwei-blog/
點擊“匹配Email地址”,即可匹配出網址。
7.2 常用正則表達式匹配規則
'.' 匹配所有字符串,除以外
‘-’ 表示范圍[0-9]
'*' 匹配前面的子表達式零次或多次。要匹配 * 字符,請使用 *。
'+' 匹配前面的子表達式一次或多次。要匹配 + 字符,請使用 +
'^' 匹配字符串開頭
‘$’ 匹配字符串結尾 re
'' 轉義字符, 使后一個字符改變原來的意思,如果字符串中有字符*需要匹配,可以*或者字符集[*] re.findall(r'3*','3*ds')結['3*']
'*' 匹配前面的字符0次或多次 re.findall("ab*","cabc3abcbbac")結果:['ab', 'ab', 'a']
‘?’ 匹配前一個字符串0次或1次 re.findall('ab?','abcabcabcadf')結果['ab', 'ab', 'ab', 'a']
'{m}' 匹配前一個字符m次 re.findall('cb{1}','bchbchcbfbcbb')結果['cb', 'cb']
'{n,m}' 匹配前一個字符n到m次 re.findall('cb{2,3}','bchbchcbfbcbb')結果['cbb']
'd' 匹配數字,等于[0-9] re.findall('d','電話:10086')結果['1', '0', '0', '8', '6']
'D' 匹配非數字,等于[^0-9] re.findall('D','電話:10086')結果['電', '話', ':']
'w' 匹配字母和數字,等于[A-Za-z0-9] re.findall('w','alex123,./;;;')結果['a', 'l', 'e', 'x', '1', '2', '3']
'W' 匹配非英文字母和數字,等于[^A-Za-z0-9] re.findall('W','alex123,./;;;')結果[',', '.', '/', ';', ';', ';']
's' 匹配空白字符 re.findall('s','3*ds ')結果[' ', '', '']
'S' 匹配非空白字符 re.findall('s','3*ds ')結果['3', '*', 'd', 's']
'A' 匹配字符串開頭
'Z' 匹配字符串結尾
匹配衣蛾制表符
'b' 匹配單詞的詞首和詞尾,單詞被定義為一個字母數字序列,因此詞尾是用空白符或非字母數字符來表示的
'B' 與b相反,只在當前位置不在單詞邊界時匹配
'(?P...)' 分組,除了原有編號外在指定一個額外的別名 re.search("(?P[0-9]{4})(?P[0-9]{2})(?P[0-9]{8})","371481199306143242").groupdict("city") 結果{'province': '3714', 'city': '81', 'birthday': '19930614'}
[] 是定義匹配的字符范圍。比如 [a-zA-Z0-9] 表示相應位置的字符要匹配英文字符和數字。[s*]表示空格或者*號。
常用的re函數:
[^...] 不在[]中的字符,比如[^abc]匹配除了a、b、c之外的字符。
.* 具有貪婪的性質,首先匹配到不能匹配為止,根據后面的正則表達式,會進行回溯。
.*? 滿足條件的情況只匹配一次,即懶惰匹配。
7.3 常用匹配方法屬性函數
方法/屬性
作用
re.match(pattern, string, flags=0)
從字符串的起始位置匹配,如果起始位置匹配不成功的話,match()就返回none
re.search(pattern, string, flags=0)
掃描整個字符串并返回第一個成功的匹配
re.findall(pattern, string, flags=0)
找到RE匹配的所有字符串,并把他們作為一個列表返回
re.finditer(pattern, string, flags=0)
找到RE匹配的所有字符串,并把他們作為一個迭代器返回
re.sub(pattern, repl, string, count=0, flags=0)
替換匹配到的字符串
函數參數說明:
pattern:匹配的正則表達式
string:要匹配的字符串
flags:標記為,用于控制正則表達式的匹配方式,如:是否區分大小寫,多行匹配等等。
repl:替換的字符串,也可作為一個函數
count:模式匹配后替換的最大次數,默認0表示替換所有匹配
例子1:
#!/usr/bin/python3import re#替換phone = '18898537584 #這是我的電話號碼'print('我的電話號碼:',re.sub('#.*','',phone)) #去掉注釋print(re.sub('D','',phone))#searchip_addr = re.search('(d{3}.){1,3}d{1,3}.d{1,3}',os.popen('ifconfig').read())print(ip_addr)#match>>> a = re.match('d+','2ewrer666dad3123df45')>>> print(a.group())2獲取匹配的函數:
方法/屬性
作用
group(num=0)
匹配的整個表達式的字符串,group() 可以一次輸入多個組號,在這種情況下它將返回一個包含那些組所對應值的元組。
groups()
返回包含所有小組字符串的元組,從1到所含的小組
groupdict()
返回以有別名的組的別名為鍵、以該組截獲的子串為值的字典
start()
返回匹配開始的位置
end()
返回匹配結束的位置
span()
返回一個元組包含匹配(開始,結束)的位置
re模塊中分組的作用?
(1)判斷是否匹配(2)靈活提取匹配到各個分組的值。
>>> import re>>> print(re.search(r'(d+)-([a-z])','34324-dfsdfs777-hhh').group(0)) #返回整體34324-d>>> print(re.search(r'(d+)-([a-z])','34324-dfsdfs777-hhh').group(1)) #返回第一組34324>>> print(re.search(r'(d+)-([a-z])','34324-dfsdfs777-hhh').group(2)) #獲取第二組d>>> print(re.search(r'(d+)-([a-z])','34324-dfsdfs777-hhh').group(3)) #不存在。報錯“no such group”Traceback (most recent call last):File "", line 1, in IndexError: no such group7.4 re.compile 函數
compile 函數用于編譯正則表達式,生成一個正則表達式( Pattern )對象。語法格式:
re.compile(pattern[, flags])
參數:pattern : 一個字符串形式的正則表達式flags : 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體參數為:re.I 忽略大小寫re.L 表示特殊字符集 w, W, b, B, s, S 依賴于當前環境re.M 多行模式re.S 即為 . 并且包括換行符在內的任意字符(. 不包括換行符)re.U 表示特殊字符集 w, W, b, B, d, D, s, S 依賴于 Unicode 字符屬性數據庫re.X 為了增加可讀性,忽略空格和 # 后面的注釋
常用的是re.I和re.S
7.5 爬取貓眼電影TOP排行
利用requests庫和正則表達式來抓取貓眼電影TOP100的相關內容。requests比urllib使用更加方便。
抓取目標
提取貓眼電影TOP的電影名稱、時間、評分 、圖片等信息。提取的站點URL為https://maoyan.com/board/4
提取結果已文件形式保存下來。
URL提取分析
打開站點https://maoyan.com/board/4,直接點擊第二頁和第三頁,觀察URL的內容產生的變化。
第二頁:https://maoyan.com/board/4?offset=10
第三頁:https://maoyan.com/board/4?offset=20
總結出規律,唯一變化的是offset=x,如果想獲取top100電影,只需分開請求10次,offset參數分別設置為0、10、20...90即可。
源碼分析和正則提取
打開網頁按F12查看頁面源碼,可以看到,一部電影信息對應的源代碼是一個dd節點,首先需要提取排名信息,排名信息在class為board-index的i節點內,這里使用懶惰匹配提取i節點內的信息,正則表達式為:
.*?board-index.*?>(.*?)
隨后提取電影圖片,可以看到后面有a節點,其內部有兩個img節點,經過檢查后發現,第二個img節點的data-src屬性是圖片的鏈接。這里提取第二個img節點的data-src屬性,正則表達式改寫如下:
.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?)
再提取主演、發布時間、評分等內容時,都是同樣的原理。最后,正則表達式寫為:
.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?).*?integer.*?>(.*?).*?fraction.*?>(.*?).*?注意:這里不要在Element選項卡中直接查看源碼,因為那里的源碼可能經過JavaScript操作而與原始請求不通,而是需要從NetWork選項卡部分查看原始請求得到的源碼。
代碼整合
import jsonimport requestsfrom requests.exceptions import RequestException #引入異常import reimport timedef get_one_page(url): try: response = requests.get(url) if response.status_code == 200: #由狀態碼判斷返回結果 return response.text #返回網頁內容 return None except RequestException: return Nonedef parse_one_page(html): pattern = re.compile('.*?board-index.*?>(d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?).*?releasetime">(.*?)' + '.*?integer">(.*?).*?fraction">(.*?).*?', re.S) #compile函數表示一個方法對象,re.s匹配多行 items = re.findall(pattern, html) #以列表形式返回全部能匹配的字符串。 for item in items: #將結果以字典形式返回鍵值對 yield { #把這個方法變成一個生成器 'index': item[0], 'image': item[1], 'title': item[2], 'actor': item[3].strip()[3:], 'time': item[4].strip()[5:], 'score': item[5] + item[6] #將評分整數和小數結合起來 }def write_to_file(content): with open('result.txt', 'a', encoding='utf-8') as f: #將結果寫入文件 f.write(json.dumps(content, ensure_ascii=False) + '')def main(offset): url = 'http://maoyan.com/board/4?offset=' + str(offset) html = get_one_page(url) for item in parse_one_page(html): print(item) write_to_file(item)if __name__ == '__main__': for i in range(10): main(offset=i * 10) time.sleep(1)8 Scrapy框架
Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 其可以應用在數據挖掘,信息處理或存儲歷史數據等一系列的程序中。
其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。Scrapy 使用了 Twisted異步網絡庫來處理網絡通訊。整體架構大致如下
Scrapy主要包括了以下組件:
引擎(Scrapy)用來處理整個系統的數據流處理, 觸發事務(框架核心)調度器(Scheduler)用來接受引擎發過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什么, 同時去除重復的網址下載器(Downloader)用于下載網頁內容, 并將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)爬蟲(Spiders)爬蟲是主要干活的, 用于從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面項目管道(Pipeline)負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析后,將被發送到項目管道,并經過幾個特定的次序處理數據。下載器中間件(Downloader Middlewares)位于Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。爬蟲中間件(Spider Middlewares)介于Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。調度中間件(Scheduler Middewares)介于Scrapy引擎和調度之間的中間件,從Scrapy引擎發送到調度的請求和響應。Scrapy運行流程大概如下:
scrapy常用命令
scrapy startproject 創建爬蟲名稱(唯一)
scrapy genspider 創建爬蟲項目名稱
scrapy list 列出所有爬蟲名稱
scrapy crawl 運行爬蟲
8.1 scrapy爬蟲項目一:爬取豆瓣電影TOP250
爬取目標:電影排名、電影名稱、電影評分、電影評論數
創建爬蟲項目和爬蟲
scrapy startproject DoubanMovieTop
cd DoubanMovieTop
scrapy genspider douban
修改默認“user-agent”和reboots為True
修改settings.py文件以下參數:
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'ROBOTSTXT_OBEY = FalseItem使用簡單的class定義語法以及Field對象來聲明。
寫入下列代碼聲明Item
import scrapyclass DoubanmovietopItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() #排名 ranking = scrapy.Field() #電影名稱 movie_name = scrapy.Field() #評分 score = scrapy.Field() #評論人數 score_num = scrapy.Field()分析網頁源碼抓取所需信息
# -*- coding: utf-8 -*-import scrapyfrom DoubanMovieTop.items import DoubanmovietopItemclass DoubanSpider(scrapy.Spider): name = 'douban' #allowed_domains = ['movie.douban.com'] def start_requests(self): start_urls = 'https://movie.douban.com/top250' yield scrapy.Request(start_urls) def parse(self, response): item = DoubanmovietopItem() movies = response.xpath('//ol[@class="grid_view"]/li') for movie in movies: item['ranking'] = movie.xpath('.//div[@class="pic"]/em/text()').extract()[0] item['movie_name'] = movie.xpath('.//div[@class="hd"]/a/span[1]/text()').extract()[0] item['score'] = movie.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()').extract()[0] item['score_num'] = movie.xpath('.//div[@class="star"]/span/text()').re(r'(d+)人評價')[0] #Selector也有一種.re() yield item next_url = response.xpath('//span[@class="next"]/a/@href').extract() if next_url: next_url = 'https://movie.douban.com/top250' + next_url[0] yield scrapy.Request(next_url)運行爬蟲寫入文件中
scrapy crawl douban -o douban.csv使用wps打開excel表格查看抓取結果
總結
以上是生活随笔為你收集整理的python sub 不区分大小写_Python网络爬虫入门篇的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pps服务器未响应_服务响应时间与分布
- 下一篇: 正式环境docker部署hyperf_H