當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

Python爬虫应用实战-网站数据爬取及数据分析

發(fā)布時(shí)間：2025/4/5 python 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python爬虫应用实战-网站数据爬取及数据分析小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

實(shí)戰(zhàn)一：中國(guó)大學(xué)排名

前言

由于上一篇文章中教會(huì)了大家如何存儲(chǔ)數(shù)據(jù)，但是由于篇幅過(guò)大，就沒(méi)有加入實(shí)戰(zhàn)篇。想必大家也等著急了吧，所以今天就為大家?guī)?lái)兩篇實(shí)戰(zhàn)內(nèi)容，希望可以幫助到各位更好的認(rèn)識(shí)到爬蟲(chóng)與MySQL數(shù)據(jù)庫(kù)結(jié)合的知識(shí)。

每年的6月都是高考的大日子，所有的學(xué)子都為自己的目標(biāo)大學(xué)努力著，拼搏著，所以今天的第一篇實(shí)戰(zhàn)就是為你們帶來(lái)2020中國(guó)大學(xué)的排名情況，讓各位小伙伴知道你自己的大學(xué)排名大概是多少。

需求分析與功能實(shí)現(xiàn)

爬取的網(wǎng)址如下：

https://www.shanghairanking.cn/rankings/bcur/202011

打開(kāi)網(wǎng)站之后，你會(huì)看到映入眼簾的就是中國(guó)大學(xué)的排名情況，讓我們看看我們需要的信息有哪些吧。

如上圖所示，我們需要獲取到學(xué)校的排名、學(xué)校的名稱(chēng)、學(xué)校所在的省份、該學(xué)校所屬的類(lèi)型以及大學(xué)的總分。

這些數(shù)據(jù)都保存在表格當(dāng)中，因此我選用xpath提取表格數(shù)據(jù)。

具體代碼如下所示：

# 解析網(wǎng)頁(yè)提取信息 def parse_html(self, html): rank_ids = [] university_names = [] provices = [] types = [] all_sorces = [] html = etree.HTML(html) tr

總結(jié)

以上是生活随笔為你收集整理的Python爬虫应用实战-网站数据爬取及数据分析的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python爬虫应用实战-如何爬取好看的
下一篇： matlab画一个局部放大的图中图