Python 爬虫学习笔记三:多页内容爬取内容分析及格式化
Python 爬蟲學習筆記三:多頁內(nèi)容爬取&內(nèi)容分析及格式化
Python int與string之間的轉(zhuǎn)化
string–>int
1、10進制string轉(zhuǎn)化為int
int(‘12’)
2、16進制string轉(zhuǎn)化為int
int(‘12’, 16)
int–>string
1、int轉(zhuǎn)化為10進制string
str(18)
2、int轉(zhuǎn)化為16進制string
hex(18)
2 . 由于鏈家網(wǎng)上面選中第二頁的時候,只是在頁面后面多了一個“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的網(wǎng)頁只需要循環(huán)更新requests 的頁面URL
3 . 增加了一個循環(huán)之后,可以打印所有的爬取結(jié)果
from lxml import etree import requests import string url = 'http://sh.lianjia.com/ershoufang/' region = 'pudong' price = 'p23' finalURL = url+region+pricedef spider_room(finallyURL):r= requests.get(finallyURL)html = requests.get(finalURL).content.decode('utf-8')dom_tree = etree.HTML(html)# all the messagesall_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")for index in range(len(all_message)):print(all_message[index].xpath('string(.)').strip())return for i in range(20):finallyURL = finalURL + '/d'+str(i)spider_room(finallyURL)4 . 爬取了20頁的內(nèi)容,可是內(nèi)容的結(jié)果輸出的形式并沒有改變
【注】 看到的比較好的文章
[1] 利用Python爬取朋友圈數(shù)據(jù),爬到你開始懷疑人生
[2] 請問爬蟲如何爬取動態(tài)頁面的內(nèi)容?
[3] 如何用爬取的數(shù)據(jù)賺錢
[4] 錢塘數(shù)據(jù)大數(shù)據(jù)交易中心
[5] 利用爬蟲技術能做到哪些很酷很有趣很有用的事情?
總結(jié)
以上是生活随笔為你收集整理的Python 爬虫学习笔记三:多页内容爬取内容分析及格式化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 查看自己本机的ip地址、DNS服务器地址
- 下一篇: Element-ui的理解