Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                一、搭建基礎 Scrapy 工程框架
創建項目
輸入如下命令:
scrapy startproject NewsSpider # 創建項目 cd NewsSpider scrapy genspider technews tech.163.com # 創建一個爬蟲tree .目錄結構如下: (base) ? [dfg@:/Users/dfg/code/codeplay/python/Spider/NewsSpider] tree . . ├── NewsSpider │ ├── __init__.py │ ├── __pycache__ │ │ ├── __init__.cpython-38.pyc │ │ └── settings.cpython-38.pyc │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ ├── __init__.py │ ├── __pycache__ │ │ └── __init__.cpython-38.pyc │ └── technews.py └── scrapy.cfg4 directories, 11 files明確需求
由于是一個小項目,所以需求比較簡單。目標定為爬取網易的科技新聞(tech.163.com),要獲取的項目包括以下幾項:
- 標題
 - 發表時間
 - 來源
 - 內容
 - 鏈接
 
定義 Item
Item是保存爬取到的數據的容器,其使用方法
總結
以上是生活随笔為你收集整理的Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: contains()+replaceFi
 - 下一篇: 【Java】不正当使用break语句的危