jq获取表格里的checkbox_Python抓取网页表格(一)
生活随笔
收集整理的這篇文章主要介紹了
jq获取表格里的checkbox_Python抓取网页表格(一)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Python有很多包可以抓取數(shù)據(jù),如selenium、requests、scrapy、pandas,每個(gè)包都有其適用性,個(gè)人認(rèn)為在抓取數(shù)據(jù)時(shí),代碼簡(jiǎn)潔性和數(shù)據(jù)獲取的準(zhǔn)確性是需要考慮的因素,時(shí)間快慢倒不用太在意,畢竟用python抓數(shù)據(jù)本來就大大節(jié)省了時(shí)間,用不同的方法可能也就是1秒和1分鐘的區(qū)別。日常中我們總存在抓取表格數(shù)據(jù)的需求,本文試圖用pandas最簡(jiǎn)潔的代碼抓取表格數(shù)據(jù),代碼非常簡(jiǎn)單,也很容易上手。
隨便選個(gè)網(wǎng)頁:
http://www.nafmii.org.cn/dcmfx/tzs/ppn/index.html
比如爬取下圖中定向工具的注冊(cè)批文(當(dāng)然wind里面也有數(shù)據(jù),本文只是為了展示如何爬取表格型數(shù)據(jù))一、爬取當(dāng)頁
只需要兩句關(guān)鍵代碼就可以抓取出來,前兩句是導(dǎo)入相關(guān)模塊,第三句輸入網(wǎng)址,第四句用pandas讀取,由于該網(wǎng)頁有很多表格,會(huì)以list格式存在ppn這個(gè)變量里,點(diǎn)擊查看可以發(fā)行第十四張表格正是我們所需要的內(nèi)容。?二、全部爬取
但是第一部分只抓取了第一頁,如果想要把所有頁都抓取出來,同樣非常簡(jiǎn)單,只需編寫一個(gè)循環(huán)。點(diǎn)擊下一頁可以發(fā)現(xiàn)其網(wǎng)址會(huì)發(fā)生相應(yīng)改變:http://www.nafmii.org.cn/dcmfx/tzs/ppn/index_2.html頁碼會(huì)體現(xiàn)在index后面的數(shù)字,因此可以將url改為變量的組合,具體看第五句。第一和二句依然是導(dǎo)入相關(guān)模塊,第三句是生成一個(gè)空矩陣,用于存儲(chǔ)抓取完的結(jié)果,第四句至第八句是一個(gè)簡(jiǎn)單的循環(huán),result變量就是每頁抓取的結(jié)果,然后不斷的添加到output里。最后output就是我們想要的結(jié)果。
總結(jié)
以上是生活随笔為你收集整理的jq获取表格里的checkbox_Python抓取网页表格(一)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux启动过程中内核拷贝,轻松识破l
- 下一篇: mysql 视图 动态sql_sql-s