python爬虫之路自学教程_python 爬虫学习之路
2016-6-18
--今天實現了第一個用urllib2實現的爬蟲程序。
--過程中發現
req = urllib2.Request(url,headers = headers)
總是報錯: 主要原因在于 url 地址錯誤。
例如:http://www.neihan8.com/wenzi/index_1.html
這個網址打開的是404網頁錯誤。
但是 http://www.neihan8.com/wenzi/index_2.html 這個網頁卻可以了。
源代碼如下:
#-*- coding:utf-8 -*-
import urllib2
class Spider:
'''
內涵段子吧。。。
'''
def load_page(self,page):
'''
發送內涵段子url
'''
url = 'http://www.neihan8.com/wenzi/index_'+ str(page) +'.html'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"}
req = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(req)
html = response.read()
return html
#main
'''
'''
if __name__ == '__main__':
mySpider = Spider()
the_page = mySpider.load_page(2)
print the_page
綜上,我們可以在代碼中加一個判斷 url 是否打開正常的代碼,這個需要學習。
-----------------------------------------------------------華麗麗的分割線-------------------------------------------------------------------------------------------------
安裝Scrapy
--安裝scrapy 都要快被安裝死了
首先會發現提示 一下問題:
1.版本問題,就是說 Scrapy 所依賴的模塊版本太低。'>=1.00' 表明你要使用大于1.0的版本
2.
說明 你有一個包 attrs 沒有安裝。
那就使用 pip install attrs 安裝即可
安裝完之后終于正常了。。。。
Python教程:pywin32下載安裝
下載鏈接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download
-------------------------開啟爬蟲之路----------------------------------------------
首先先說明當中可能遇到的問題:
步驟:在執行插入語句時,會提示上面的error。
原因:是因為數據庫中定義的字段長度比較小,在插入或者更新的時候,用一個比這個字段長度大的值去操作,就會引起這個錯誤。
2.
python向數據庫插入中文亂碼問題
第一步:數據庫那邊總得把字段類型設置為utf8之類類的吧。
第二步:在連接數據庫的時候,加個參數,說明數據庫那邊的字段類型一致,charset='utf8'。
大概就是這樣:
conn =MySQLdb.connect(host="127.0.0.1",user="nimei",passwd="nimei",db="nimei",charset="utf8") --sqlserver同理
總結
以上是生活随笔為你收集整理的python爬虫之路自学教程_python 爬虫学习之路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: for of 的用法区别_ES6语法:v
- 下一篇: canoe开发从入门到精通pdf_阿里技