當前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫之路自学教程_python 爬虫学习之路

發布時間：2024/9/30 python 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫之路自学教程_python 爬虫学习之路小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2016-6-18

--今天實現了第一個用urllib2實現的爬蟲程序。

--過程中發現

req = urllib2.Request(url,headers = headers)

總是報錯：主要原因在于 url 地址錯誤。

例如：http://www.neihan8.com/wenzi/index_1.html

這個網址打開的是404網頁錯誤。

但是 http://www.neihan8.com/wenzi/index_2.html 這個網頁卻可以了。

源代碼如下：

#-*- coding:utf-8 -*-

import urllib2

class Spider:

'''

內涵段子吧。。。

'''

def load_page(self,page):

'''

發送內涵段子url

'''

url = 'http://www.neihan8.com/wenzi/index_'+ str(page) +'.html'

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"}

req = urllib2.Request(url,headers = headers)

response = urllib2.urlopen(req)

html = response.read()

return html

#main

'''

if __name__ == '__main__':

mySpider = Spider()

the_page = mySpider.load_page(2)

print the_page

綜上，我們可以在代碼中加一個判斷 url 是否打開正常的代碼，這個需要學習。

-----------------------------------------------------------華麗麗的分割線-------------------------------------------------------------------------------------------------

安裝Scrapy

--安裝scrapy 都要快被安裝死了

首先會發現提示一下問題：

1.版本問題，就是說 Scrapy 所依賴的模塊版本太低。'>=1.00' 表明你要使用大于1.0的版本

說明你有一個包 attrs 沒有安裝。

那就使用 pip install attrs 安裝即可

安裝完之后終于正常了。。。。

Python教程：pywin32下載安裝

下載鏈接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download

-------------------------開啟爬蟲之路----------------------------------------------

首先先說明當中可能遇到的問題：

步驟：在執行插入語句時，會提示上面的error。

原因：是因為數據庫中定義的字段長度比較小，在插入或者更新的時候，用一個比這個字段長度大的值去操作，就會引起這個錯誤。

python向數據庫插入中文亂碼問題

第一步：數據庫那邊總得把字段類型設置為utf8之類類的吧。

第二步：在連接數據庫的時候，加個參數，說明數據庫那邊的字段類型一致，charset='utf8'。

大概就是這樣：

conn =MySQLdb.connect(host="127.0.0.1",user="nimei",passwd="nimei",db="nimei",charset="utf8") --sqlserver同理

總結

以上是生活随笔為你收集整理的python爬虫之路自学教程_python 爬虫学习之路的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： for of 的用法区别_ES6语法:v
下一篇： canoe开发从入门到精通pdf_阿里技

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python爬虫之路自学教程_python 爬虫学习之路

總結