爬虫只能用python吗_只针对 Python 爬虫,该如何学习?
最近剛好準(zhǔn)備開始寫一個
從零開始寫python爬蟲的系列專欄
希望能幫助到你.
這里先把導(dǎo)言部分貼過來
-------------------------------------------
從零開始寫Python爬蟲 --- 導(dǎo)言我是一名努力想做 coder 的小伙,目前自學(xué)Python有大半年了,期間也寫過一些小的爬蟲。說起來當(dāng)時想成為程序員就是因?yàn)闊o意間了解到 爬蟲 這個神奇的東西。這里會記錄自己 重新梳理 學(xué)習(xí)Python爬蟲的路線。也希望能成為一篇不錯的入門爬蟲教程,總之,希望自己能堅持把這個系列專欄寫完。
學(xué)習(xí)之前需要哪些準(zhǔn)備?一顆熱愛學(xué)習(xí),不屈不撓的心
一臺有鍵盤的電腦(什么系統(tǒng)都行。我用的os x,所以例子會以這個為準(zhǔn))
html相關(guān)的一些前段知識。不需要精通,能懂一點(diǎn)就夠!
Python的基礎(chǔ)語法知識 。
如果我一點(diǎn)編程基礎(chǔ)都沒有怎么辦?
現(xiàn)在開始學(xué)!Python是一門非常適合做入門學(xué)習(xí)的語言。如果你沒有任何其他編程語言的基礎(chǔ),那么就來學(xué)Python吧。
我自己目前同時在學(xué)java和Python,就我自己的感覺來說,Python的語法簡直太美妙了 不是有句話叫 Life is short, Use Python
有什么推薦的入門教材么?笨辦法學(xué)Python(Learn Python the Hard Way),我看的這本書入門的,非常有趣,網(wǎng)上有翻譯的版本,當(dāng)然有條件的同學(xué)還是去看英文原著會更好。
廖大的Python3教程(廖雪峰的Python3教程)
具體的學(xué)習(xí)路線是什么?
總體分為三個大方面:
一: 簡單的定向腳本爬蟲(request --- bs4 --- re)
二: 大型框架式爬蟲(Scrapy框架為主)
三:瀏覽器模擬爬蟲 (Mechanize模擬 和 Selenium 模擬)
具體的步驟:
一:Beautiful Soup 爬蟲requests庫的安裝與使用
安裝beautiful soup 爬蟲環(huán)境
beautiful soup 的解析器
re庫 正則表達(dá)式的使用
bs4 爬蟲實(shí)踐: 獲取百度貼吧的內(nèi)容
bs4 爬蟲實(shí)踐: 獲取雙色球中獎信息
bs4 爬蟲實(shí)踐: 獲取起點(diǎn)小說信息
bs4 爬蟲實(shí)踐: 獲取電影信息
bs4 爬蟲實(shí)踐: 獲取悅音臺榜單
二: Scrapy 爬蟲框架安裝Scrapy
Scrapy中的選擇器 Xpath和CSS
Scrapy 爬蟲實(shí)踐:今日影視
Scrapy 爬蟲實(shí)踐:天氣預(yù)報
Scrapy 爬蟲實(shí)踐:獲取代理
Scrapy 爬蟲實(shí)踐:糗事百科
Scrapy 爬蟲實(shí)踐: 爬蟲相關(guān)攻防(代理池相關(guān))
三: 瀏覽器模擬爬蟲Mechanize模塊的安裝與使用
利用Mechanize獲取樂音臺公告
Selenium模塊的安裝與使用
瀏覽器的選擇 PhantomJS
Selenium & PhantomJS 實(shí)踐: 獲取代理
Selenium & PhantomJS 實(shí)踐: 漫畫爬蟲
最后,今天也是一時興起才想做這么一個系列的記錄,最終能不能寫完自己心里也沒底,
但我會盡量去寫完它。現(xiàn)在是學(xué)期中后期了,一大堆節(jié)課論文在等著我,(文科生太苦逼)
加上,我也是邊學(xué)邊寫,所以寫的的不會太快,我盡量做到每周都寫一兩篇的。每天的學(xué)習(xí)記錄都會 同步更新到:
微信公眾號: findyourownway
知乎專欄 : 從零開始寫Python爬蟲 - 知乎專欄
個人博客 : Ehco的博客
總結(jié)
以上是生活随笔為你收集整理的爬虫只能用python吗_只针对 Python 爬虫,该如何学习?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网络资产管理系统_RFID固定资产管理系
- 下一篇: 如何开启telnet 23端口