Python爬虫应用实战-如何对爬取的数据进行数据存储?
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫应用实战-如何对爬取的数据进行数据存储?
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
文件存儲
文件儲存的形式多種多樣,比如說保存成TXT純文本形式,也可以保存為JSON格式、CSV格式等等。
TXT文本存儲
將數(shù)據(jù)保存到TXT文件的操作是非常簡單的,而且TXT文本幾乎兼容任何平臺,但是也是存在缺點的,那就是不利于檢索。所以如果對檢索數(shù)據(jù)的要求不高,追求第一的話,可以采用TXT文本存儲。
基本示例
爬取小說網(wǎng),鏈接如下:
https://www.soxscc.com/BianShenJueSeShaoNv/1001322.html首先可以使用requests將網(wǎng)頁源碼獲取下來,然后使用pyquery解析庫解析,提取其中的小說內(nèi)容。
具體代碼如下所示:
import requests from pyquery import PyQuery as pqurl = 'https://w、w.soxscc.com/BianShenJueSeShaoNv/1001322.html' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36' } html = requests.get(url, headers=headers).text doc = pq(html) text = doc('#con1001322').text() file = open('都市仙尊.txt', 'w', encoding='utf-8') file.write(text) print('總結(jié)
以上是生活随笔為你收集整理的Python爬虫应用实战-如何对爬取的数据进行数据存储?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python爬虫应用实战-爬取股票数据做
- 下一篇: Linux疑难杂症解决方案100篇(十五