當前位置：首頁 > 编程语言 > python >内容正文

python

python大作业爬虫_爬虫大作业

發布時間：2025/3/15 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python大作业爬虫_爬虫大作业小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.選一個自己感興趣的主題（所有人不能雷同）。

2.用python 編寫爬蟲程序，從網絡上爬取相關主題的數據。

3.對爬了的數據進行文本分析，生成詞云。

4.對文本分析結果進行解釋說明。

5.寫一篇完整的博客，描述上述實現過程、遇到的問題及解決辦法、數據分析思想及結論。

6.最后提交爬取的全部數據、爬蟲及數據分析源代碼。

1、開發環境

編程語言：Python3.6

代碼運行工具：pycham

依賴庫：Requests，BeautifulSoup，wordcloud，re，jieba等

2、開發軟件已經第三方庫的安裝

由于開發軟件的安裝流程網上都有比較詳細的介紹，所以在這里只是給出參考網站，具體講一下的是第三方庫的安裝

Python3.6的安裝教程參照（https://jingyan.baidu.com/article/e9fb46e1502c5a7520f76640.html）

pycham的安裝教程參照（https://jingyan.baidu.com/article/90895e0f28a32064ec6b0bc7.html）

在windows上安裝python依賴庫非常簡單，語法如下：pip install PackageNamePackageName指的是你安裝的依賴包名稱。

例如安裝requests依賴包可以這樣安裝：pip install requests

但是以上的安裝依賴包的方法用于wordcloud依賴包的安裝是不行的，軟件會報錯的。我上網找了一下解決的方法有兩個比較可行的。

第一個是去https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud選擇合適的版本下載whl文件，注意的是，cp指的是系統上安裝的python版本，32或者64表示安裝的python版本是32位或者64位的，而不是你電腦的操作系統多少位的

下載完成后打開cmd運行,切換到指定目錄運行，代碼如下：

pip install wordcloud-1.4.1-cp36-cp36m-win32.whl

pip install wordcloud

其中wordcloud-1.4.1-cp36-cp36m-win32.whl是你下載的whl文件的名字或者說是你下載的whl 的版本。

第二個是去網站下載一個vs2017可以解決這個問題，不過這個軟件太大了有幾個G，下載什么的太浪費時間，不過在第一種情況你還不能解決wordcloud不能安裝的問題也可以使用第二種

參考網站https://jingyan.baidu.com/article/597a06433b992e312b524384.html

要注意的是你使用的依賴包一定要都下載了，不然使用不了，特別是生成詞云是時候使用到的jieba依賴包

3、爬蟲程序的編輯以及生成詞云

爬取廣州商學院校園網新聞

# coding: utf-8

import re

import requests

from bs4 import BeautifulSoup

from datetime import datetime

def getClickCount(r):

s = re.findall('\_(.*).html', r)[0].split('/')[-1]

res = requests.get('http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(s))

return int(res.text.split('.html')[-1].lstrip("('").rstrip("');"))

def getNewsDetail(newsUrl): # 一篇新聞的全部內容

resd = requests.get(newsUrl)

resd.encoding = 'utf-8'

soupd = BeautifulSoup(resd.text, 'html.parser') # 打開新聞詳情并解析

news = {}

news['title'] = soupd.select('.show-title')[0].text

info = soupd.select('.show-info')[0].text

news['dt'] = datetime.strptime(info.lstrip('發布時間:')[0:19], '%Y-%m-%d %H:%M:%S')

if info.find('來源：') > 0:

news['source'] = info[info.find('來源：'):].split()[0].lstrip('來源：')

else:

news['source'] = 'none'

news['content'] = soupd.select('.show-content')[0].text.strip()

news['click'] = getClickCount(newsUrl)

news['newsUrl'] = newsUrl

return (news)

def getListPage(pageUrl): # 9. 取出一個新聞列表頁的全部新聞包裝成函數def getListPage(pageUrl)

res = requests.get(pageUrl)

res.encoding = 'utf-8'

soup = BeautifulSoup(res.text, 'html.parser')

newslist = []

for news in soup.select('li'):

if len(news.select('.news-list-title')) > 0:

newsUrl = news.select('a')[0].attrs['href']

newslist.append(getNewsDetail(newsUrl))

return (newslist)

def getPageN():

res = requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/')

res.encoding = 'utf-8'

soup = BeautifulSoup(res.text, 'html.parser')

pagenumber = int(soup.select('.a1')[0].text.rstrip('條'))

page = pagenumber // 10 + 1

return page

newstotal = []

firstPageUrl = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'

newstotal.extend(getListPage(firstPageUrl))

n = getPageN()

# f = open('gzccnews.txt','a',encoding='utf-8')

for i in range(n, n + 1):

listPageUrl = 'http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)

newstotal.extend(getListPage(listPageUrl))

for news in newstotal:

print(news)

import pandas

df = pandas.DataFrame(newstotal)

df.to_excel('gzccnews.xlsx')

# fo = open('output.txt', "ab+")

# # 以二進制寫入章節題目需要轉換為utf-8編碼，否則會出現亂碼

# fo.write(('\r' + + '\r\n').encode('UTF-8'))

# # 以二進制寫入章節內容

# fo.write(().encode('UTF-8'))

# fo.close()

選取想要生成詞云圖片（可以根據你自己的喜歡更換你的選擇）

生成詞云

#coding:utf-8

import matplotlib.pyplot as plt

from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS

import jieba

import numpy as np

from PIL import Image

#讀入背景圖片

abel_mask = np.array(Image.open("gui.jpg"))

#讀取要生成詞云的文件

text_from_file_with_apath = open('output.txt',encoding='utf-8').read()

#通過jieba分詞進行分詞并通過空格分隔

wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)

wl_space_split = " ".join(wordlist_after_jieba)

#my_wordcloud = WordCloud().generate(wl_space_split) 默認構造函數

my_wordcloud = WordCloud(

background_color='white', # 設置背景顏色

mask = abel_mask, # 設置背景圖片

max_words = 800, # 設置最大現實的字數

stopwords = {}.fromkeys(['學院', '廣州','法律','教師','新生','會議','主持','書記','學生']), # 設置停用詞

font_path = 'C:/Users/Windows/fonts/simkai.ttf',# 設置字體格式，如不設置顯示不了中文

max_font_size = 50, # 設置字體最大值

random_state = 30, # 設置有多少種隨機生成狀態，即有多少種配色方案

scale=.5

).generate(wl_space_split)

# 根據圖片生成詞云顏色

image_colors = ImageColorGenerator(abel_mask)

# 以下代碼顯示圖片

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

生成詞云后的圖片

總結

以上是生活随笔為你收集整理的python大作业爬虫_爬虫大作业的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：蓝牙耳机芯片检测软件_安凯微推出TWS真
下一篇：怎么引jsp包_电机引接线的制作流程防护

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python大作业爬虫_爬虫大作业

總結