python网页爬取方法_Python爬取网页的三种方法
# Python爬取網頁的三種方法之一: ?使用urllib或者urllib2模塊的getparam方法
import urllib
fopen1 = urllib.urlopen('http://www.baidu.com').info()
fopen2 = urllib2.urlopen('http://www.sina.com').info()
print fopen1.getparam('charset')
print fopen2.getparam('charset')
#----有些網站有反爬蟲技術,需要如下辦法----
url = 'http://www.qiushibaike.com/hot/page/1'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(url,headers = headers)
c_res=urllib2.urlopen(request).info()
print c_res.getparam('charset')
# Python爬取網頁的三種方法之二 : 使用chardet模塊 ---感覺比方法一速度慢一點
import chardet
import urllib
#先獲取網頁內容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet進行內容分析
chardit1 = chardet.detect(data1)
print chardit1['encoding']
#----有些網站有反爬蟲技術,需要如下辦法----
url = 'http://www.qiushibaike.com/hot/page/1'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
response = urllib2.urlopen(request).read()
chardit1 = chardet.detect(response)
print chardit1['encoding']
# Python爬取網頁的三種方法之三 : 利用BeautifulSoup模塊方法
from bs4 import BeautifulSoup
import urllib2
content=urllib2.urlopen('http://www.baidu.com')
soup=BeautifulSoup(content)
print soup.original_encoding #這里的輸出就是網頁的編碼方式
#----有些網站有反爬蟲技術,需要與上述兩辦法類似處理----
總結
以上是生活随笔為你收集整理的python网页爬取方法_Python爬取网页的三种方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 统计数组中每个数字出现的次数_剑指Off
- 下一篇: 核桃露的功效与作用、禁忌和食用方法