前嗅ForeSpider教程:创建模板
今天,小編為大家帶來的教程是:如何在前嗅ForeSpider中創建模板。主要內容有:模板的概念,模板的配置方式,模板的高級選項,具體內容如下:
一,模板的概念
模板列表的層級相當于網頁跳轉的層級。模板一類似于網站首頁,每個模板代表了同一層級的頁面,通過適當的配置,可以采集全站數據。
正如網站是通過鏈接之間的跳轉,來實現網站各層級頁面的連接,ForeSpider也是通過模板中的鏈接抽取,來實現模板之間的關聯。通過抽取網頁中的全部鏈接,再進行精準過濾,就可以既全面又精確的獲取所需的全部數據。
正如網站通過正文/數據頁展示數據,ForeSpider也是通過模板中的數據抽取,來獲取所需數據。
二,模板的配置方式
1.模板的創建
模板的創建,有如下三種情況:
①新建任務后:創建新的任務之后,選擇頁面需要抽取的內容,點擊完成后,軟件自動創建對應抽取內容的模板。
②自動創建后續模板:點擊配置向導上方的“下一步”,會自動創建模板。
③手動創建模板:點擊模板列表上方的添加按鈕,創建模板。
2.抽取所需內容
根據內置瀏覽器顯示的頁面內容,選擇本頁面需要抽取的內容。
選擇頁面抽取內容
①抽取鏈接:需要抽取頁面上的鏈接時,選擇抽取鏈接以及具體的鏈接類型,會建立對應的鏈接抽取。(方式一:智能過濾/方式二:定位過濾/方式三:地址/標題過濾)
②抽取數據:需要抽取頁面上的數據時,選擇抽取數據,會建立對應的數據抽取。(>>如何選擇表單)
例如:
需要采集新聞的正文數據,當前頁面是新聞首頁,匯集了新聞的鏈接,正文數據是通過點擊新聞鏈接進入的,所以本頁面需要抽取新聞鏈接。
軟件預置了一些常見的鏈接頁面場景,此時勾選鏈接列表,軟件會自動建立一個鏈接抽取。
3.如何填寫示例地址
(1)模板一的示例地址,自動默認為該任務的采集地址。
(2)其他模板的示例地址,自動默認為上一級模板抽取到的某個鏈接地址。
(3)如果默認的示例地址不符合需求,可以手動修改示例地址,方法如下:
①采集入口地址(模板一)的選擇
一般選擇目標網站的入口地址,比如首頁。
②示例地址的選擇
大多數情況下,采集地址只填寫一個url地址。如果鏈接的頁面結構和層級結構是一致的,能夠套用同一套采集模板進行采集,可填寫多個采集地址,中間用回車換行分隔。如果不一致,需要創建新的采集任務。
例1:采集整個淘寶網全部商品的信息,淘寶網首頁就是入口地址。
例2:只采集“女裝”類別的商品信息,“女裝”首頁就是入口地址。
例3:只采集某商品的評論信息,該商品的鏈接地址就是入口地址。
三,模板的高級選項
1、字符編碼
默認自動識別。如果該頁面未能自動識別發生亂碼,需要自行選擇字符編碼。可以選擇GBK或UTF-8。
2、 文檔類型
默認自動識別。可以選擇采集xml文檔。
3、網頁類型
適用于一個模板配置大批量網站的情況(可導入上萬個采集地址),選擇類型后,可以自動過濾不屬于該類型的網頁,從而達到快速配置的目的。
網頁類型包括:全部類型、導航頁、列表頁、(文本)內容頁、詳情頁、附件、未知頁。
4、主題過濾
自動識別網頁的語義,并采集屬于某些類別的數據,過濾掉不屬于某些類別的數據。(針對自動分類器使用,如有需求請聯系我們定制。)
5.、未匹配處理模板
適用于一個模板配置大批量網站的情況,當有頁面不符合匹配的類型被過濾掉后,可以在此選擇一個針對未匹配頁面的處理模板,進入其他處理流程。
總結
以上是生活随笔為你收集整理的前嗅ForeSpider教程:创建模板的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 梦到和喜欢的人去爬山是什么意思
- 下一篇: 为什么总梦到男朋友和别的女人在一起