爬取豆瓣TOP250并将数据保存为txt文件和csv文件并存入MySQL数据库
生活随笔
收集整理的這篇文章主要介紹了
爬取豆瓣TOP250并将数据保存为txt文件和csv文件并存入MySQL数据库
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
項目源碼
import requests # 發起請求的庫 from fake_useragent import UserAgent # 構造user-Agent的庫 import mysql.connector # Python和MySQL連接的庫 from typing import NoReturn, Tuple # 類型標注的庫 from lxml import etree # 使用lxml提取html的庫 import re # Python中的正則表達式庫 import csv # 寫入csv文件的庫 import time # 程序休眠庫class bouban_Top250:def __init__(self):"""初始化"""self.conn = mysql.connector.connect( # 構造和mysql的連接host='localhost',user='root',passwd='123456',port=3307,charset='utf8',database='reptile')self.my_cursor = self.conn.cursor() # 創建油標self.start_id = 1 # 電影id編號self.all_movies_list = [] # 用來存儲所有電影信息def send_request(self, url: str) -> str:"""發送get請求,將HTML頁面源碼返回url:str類型,要請求的鏈接return:str類型,請求的鏈接頁面的html源碼"""# 使用fake_useragent.UserAgent()構造請求頭headers = {'user-Agent': UserAgent().Chrome,}# 發起請求response = requests.get(url=url, headers=headers)# 根據狀態碼來返回HTML頁面源碼if response.status_code == 200:return response.textelse:print('status_code error')return '-1'def parse_html(self, html: str) -> Tuple[Tuple]:"""解析html源碼html:str類型,html頁面源碼return:Tuple[Tuple],元組中的每一個元素也是一個元組,每一個元素對應一個電影的所有信息"""# 初始化lxmle = etree.HTML(html, etree.HTMLParser())# 獲取li標簽列表,每一個li標簽中包含一個電影的所有信息li_list = e.xpath('//ol[@class="grid_view"]/li')movies_tuple = []# 遍歷每一個li標簽,對每一個li標簽進行解析for li in li_list:try:name = ''.join(li.xpath('./div/div[@class="info"]/div[@class="hd"]/a/span[@class="title"][1]/text()'))href = ''.join(li.xpath('./div/div[@class="info"]/div[@class="hd"]/a/@href'))performers = ''.join(li.xpath('string(./div/div[@class="info"]/div[@class="bd"]/p[1])'))pattern = re.compile('\n+|\s+')performers = re.sub(pattern=pattern, repl='', string=performers)score = float(''.join(li.xpath('./div/div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')))quote = ''.join(li.xpath('./div/div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()'))tem = (self.start_id, name, href, performers, score, quote)movies_tuple.append(tem)print(self.start_id, name, href, performers, score, quote, sep=" ")self.start_id += 1except:continuereturn tuple(movies_tuple)def create_table(self, table_name: str) -> NoReturn:"""在mysql數據庫中創建表table_name:str類型,要創建表的表名"""sql_create_table = "create table if not exists {}(\ID int ,\mv_name varchar(50),\href varchar(50),\performers varchar(300),\score decimal(3, 1),\quote varchar(50), \primary key (ID)\) ENGINE=INNODB DEFAULT CHARSET='utf8mb4' COLLATE='utf8mb4_unicode_ci'".format(table_name)self.my_cursor.execute(sql_create_table)def insert_to_mysql(self, table_name: str, movies_tuple: Tuple[Tuple]) -> NoReturn:"""將傳入的電影元組中的所有電影插入到表中table_name:str類型,要插入信息的表的表名movies_tuple:Tuple[Tuple]類型,每一個元素也是元組,其中包含一個電影的所有信息"""sql_insert = "insert into {} values (%s, %s, %s, %s, %s, %s)".format(table_name)self.my_cursor.executemany(sql_insert, movies_tuple)self.conn.commit()def append_to_MV_list(self, movies_tuple: Tuple[Tuple]) -> NoReturn:"""將電影元組中的所有電影添加到所有電影列表movies_tuple:Tuple[Tuple]類型,要加入的電影元組"""for movie in movies_tuple:self.all_movies_list.append(movie)def writer_into_csv(self, file_name: str, movies_tuple: Tuple[Tuple]) -> NoReturn:"""將傳入的電影元組中的電影寫入csv文件file_name:str類型,要創建的csv文件的文件名movies_tuple:Tuple[Tuple]類型,要寫入的電影元組"""headers = ['編號', '電影名稱', '電影鏈接', '演員信息', '豆瓣評分', '引述']with open(file_name, 'w', encoding='utf-8') as f:writer = csv.writer(f)writer.writerow(headers)writer.writerows(movies_tuple)def writer_into_txt(self, file_name: str, movies_tuple: Tuple[Tuple]) -> NoReturn:"""將傳入的電影元組寫入到txt文件中file_name:str類型,要創建的txt文件名movies_tuple:Tuple[Tuple]類型,要寫入的電影元組"""headers = ['編號', '電影名稱', '電影鏈接', '演員信息', '豆瓣評分', '引述']headers = ' '.join(headers)with open(file_name, 'w', encoding='utf-8') as f:f.write(headers+'\n')for movie in movies_tuple:movie = list(movie)movie[0] = str(movie[0])movie[4] = str(movie[4])movie = str(' '.join(movie))f.write(movie+'\n')def get_next_page_url(self, html: str) -> str:"""從html源碼中獲取下一頁的鏈接html:str類型,獲取下一頁的html源碼return:str類型,構造出來的下一頁的url"""e = etree.HTML(html, etree.HTMLParser())url = ''.join(e.xpath('//span[@class="next"]/a/@href'))if url:next_page_url = 'https://movie.douban.com/top250{}'.format(url)return next_page_urlelse:return ''if __name__ == '__main__':"""程序入口"""bouban = bouban_Top250()url = 'https://movie.douban.com/top250?start=0&filter='bouban.create_table('douban')while url:html = bouban.send_request(url)url = bouban.get_next_page_url(html)movies_tuple = bouban.parse_html(html)bouban.append_to_MV_list(movies_tuple)time.sleep(1)all_movies_tuple = tuple(bouban.all_movies_list)bouban.insert_to_mysql('douban', all_movies_tuple)bouban.writer_into_txt('douban.txt', all_movies_tuple)bouban.writer_into_csv('douban.csv', all_movies_tuple)準備工作
- 安裝好程序中用到的第三方庫
- 安裝好mysql,并將mysql的服務打開
- 在__init__方法初始化中,將mysql的用戶名和密碼、數據庫更改為自己的,特別是端口號,因為我的電腦中有兩個不同的mysql版本,所以我用的端口號是3307
- 確保自己的電腦有網
- 認真看代碼,注釋中都寫了代碼的功能,有一些代碼看不懂要去查一查
- 我寫本文的日期是2021.03 ,豆瓣更新反爬蟲可能會導致爬取無效!
結果展示
心得
- re.sub()方法真是坑,它會將替換后的文本返回,不會直接對原來的文本做更改,弄得我花了幾十分鐘
- 將文本寫入txt文件中不會自動換行,還要自己加換行符,害得我又刪除->更改->刪除…
- 將文本寫入txt文件中不指定編碼方式會導致亂碼,我去
- 你看看下面的結果:
- 從編寫到完成,我的mysql中的表已經刪除了不少于20次
總結
以上是生活随笔為你收集整理的爬取豆瓣TOP250并将数据保存为txt文件和csv文件并存入MySQL数据库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AMD内存条:稳定超频、性价比高、细节出
- 下一篇: ddr3 vs ddr4:内存条大对决,