三十五、Scrapy 中的杂知识总结和代理池的编写
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                三十五、Scrapy 中的杂知识总结和代理池的编写
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.                        
                                @Author:Runsen
上次 用scrapy爬了騰訊招聘網(wǎng)站,有兩個(gè)job.json 和detail.json,針對(duì)一個(gè)item,其實(shí)有更簡(jiǎn)單的處理方法。
今天講講scrapy 中的雜知識(shí),做一個(gè)系統(tǒng)的總結(jié)
文章目錄
- 保存信息
- 日記的使用
- Scrapy shell
- UserAgentMiddleware
保存信息
crapy保存信息的最簡(jiǎn)單的方法主要有四種,-o 輸出指定格式的文件,命令如下:
- 默認(rèn)json
scrapy crawl name -o 、spider.json
- json lines格式,默認(rèn)為Unicode編碼
scrapy crawl name -o spider..jl
- csv 逗號(hào)表達(dá)式,可用Excel打開
scrapy crawl name -o spider..csv
- xml格式
scrapy crawl name -o spider..xml
但是保存的編碼不對(duì),必須在settings中加入
 FEED_EXPORT_EN
總結(jié)
以上是生活随笔為你收集整理的三十五、Scrapy 中的杂知识总结和代理池的编写的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: keras从入门到放弃(十四)模型的保存
- 下一篇: 09主板u盘怎么设coms 09主板如何
