Python爬虫(七)_非结构化数据与结构化数据
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫(七)_非结构化数据与结构化数据
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
頁面解析與數(shù)據(jù)提取
實際上爬蟲一共就四個主要步驟:
以前學的就是如何從網(wǎng)站去爬數(shù)據(jù),而爬下來的數(shù)據(jù)卻沒做分析,現(xiàn)在,就開始對數(shù)據(jù)做一些分析。
數(shù)據(jù),可分為非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)
- 非結(jié)構(gòu)化數(shù)據(jù):先有數(shù)據(jù),再有結(jié)構(gòu)
- 結(jié)構(gòu)化數(shù)據(jù):先有結(jié)構(gòu),再有數(shù)據(jù)
- 不同類型的數(shù)據(jù),我們需要采用不同的方式來處理
非結(jié)構(gòu)化的數(shù)據(jù)處理
文本、電話號碼、郵箱地址
- 正則表達式Python正則表達式
HTML文件
- 正則表達式
- XPath
- CSS選擇器
結(jié)構(gòu)化的數(shù)據(jù)處理
JSON文件
- JSON Path
- 轉(zhuǎn)化為Python類型進行操作(json類)
XML文件
- 轉(zhuǎn)化為Python類型(xmltodict)
- XPath
- CSS選擇器
- 正則表達式
轉(zhuǎn)載于:https://www.cnblogs.com/moying-wq/p/11569914.html
總結(jié)
以上是生活随笔為你收集整理的Python爬虫(七)_非结构化数据与结构化数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python爬虫(六)_Requests
- 下一篇: Python爬虫(八)_正则表达式