Python爬虫应用实战-网站数据爬取及数据分析
實(shí)戰(zhàn)一:中國(guó)大學(xué)排名
前言
由于上一篇文章中教會(huì)了大家如何存儲(chǔ)數(shù)據(jù),但是由于篇幅過(guò)大,就沒(méi)有加入實(shí)戰(zhàn)篇。想必大家也等著急了吧,所以今天就為大家?guī)?lái)兩篇實(shí)戰(zhàn)內(nèi)容,希望可以幫助到各位更好的認(rèn)識(shí)到爬蟲(chóng)與MySQL數(shù)據(jù)庫(kù)結(jié)合的知識(shí)。
每年的6月都是高考的大日子,所有的學(xué)子都為自己的目標(biāo)大學(xué)努力著,拼搏著,所以今天的第一篇實(shí)戰(zhàn)就是為你們帶來(lái)2020中國(guó)大學(xué)的排名情況,讓各位小伙伴知道你自己的大學(xué)排名大概是多少。
需求分析與功能實(shí)現(xiàn)
爬取的網(wǎng)址如下:
https://www.shanghairanking.cn/rankings/bcur/202011打開(kāi)網(wǎng)站之后,你會(huì)看到映入眼簾的就是中國(guó)大學(xué)的排名情況,讓我們看看我們需要的信息有哪些吧。
如上圖所示,我們需要獲取到學(xué)校的排名、學(xué)校的名稱(chēng)、學(xué)校所在的省份、該學(xué)校所屬的類(lèi)型以及大學(xué)的總分。
這些數(shù)據(jù)都保存在表格當(dāng)中,因此我選用xpath提取表格數(shù)據(jù)。
具體代碼如下所示:
# 解析網(wǎng)頁(yè)提取信息 def parse_html(self, html): rank_ids = [] university_names = [] provices = [] types = [] all_sorces = [] html = etree.HTML(html) tr總結(jié)
以上是生活随笔為你收集整理的Python爬虫应用实战-网站数据爬取及数据分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python爬虫应用实战-如何爬取好看的
- 下一篇: matlab画一个局部放大的图中图