當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

前嗅ForeSpider教程：创建模板

發布時間：2023/11/29 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了前嗅ForeSpider教程：创建模板小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天，小編為大家帶來的教程是：如何在前嗅ForeSpider中創建模板。主要內容有：模板的概念，模板的配置方式，模板的高級選項，具體內容如下：

一，模板的概念

模板列表的層級相當于網頁跳轉的層級。模板一類似于網站首頁，每個模板代表了同一層級的頁面，通過適當的配置，可以采集全站數據。
正如網站是通過鏈接之間的跳轉，來實現網站各層級頁面的連接，ForeSpider也是通過模板中的鏈接抽取，來實現模板之間的關聯。通過抽取網頁中的全部鏈接，再進行精準過濾，就可以既全面又精確的獲取所需的全部數據。
正如網站通過正文/數據頁展示數據，ForeSpider也是通過模板中的數據抽取，來獲取所需數據。

二，模板的配置方式

1.模板的創建
模板的創建，有如下三種情況：
①新建任務后：創建新的任務之后，選擇頁面需要抽取的內容，點擊完成后，軟件自動創建對應抽取內容的模板。
②自動創建后續模板：點擊配置向導上方的“下一步”，會自動創建模板。
③手動創建模板：點擊模板列表上方的添加按鈕，創建模板。

2.抽取所需內容
根據內置瀏覽器顯示的頁面內容，選擇本頁面需要抽取的內容。
選擇頁面抽取內容

①抽取鏈接：需要抽取頁面上的鏈接時，選擇抽取鏈接以及具體的鏈接類型，會建立對應的鏈接抽取。（方式一：智能過濾/方式二：定位過濾/方式三：地址/標題過濾）
②抽取數據：需要抽取頁面上的數據時，選擇抽取數據，會建立對應的數據抽取。（>>如何選擇表單）
例如：
需要采集新聞的正文數據，當前頁面是新聞首頁，匯集了新聞的鏈接，正文數據是通過點擊新聞鏈接進入的，所以本頁面需要抽取新聞鏈接。
軟件預置了一些常見的鏈接頁面場景，此時勾選鏈接列表，軟件會自動建立一個鏈接抽取。

3.如何填寫示例地址
（1）模板一的示例地址，自動默認為該任務的采集地址。
（2）其他模板的示例地址，自動默認為上一級模板抽取到的某個鏈接地址。
（3）如果默認的示例地址不符合需求，可以手動修改示例地址，方法如下：
①采集入口地址（模板一）的選擇
一般選擇目標網站的入口地址，比如首頁。
②示例地址的選擇
大多數情況下，采集地址只填寫一個url地址。如果鏈接的頁面結構和層級結構是一致的，能夠套用同一套采集模板進行采集，可填寫多個采集地址，中間用回車換行分隔。如果不一致，需要創建新的采集任務。
例1：采集整個淘寶網全部商品的信息，淘寶網首頁就是入口地址。
例2：只采集“女裝”類別的商品信息，“女裝”首頁就是入口地址。
例3：只采集某商品的評論信息，該商品的鏈接地址就是入口地址。

三，模板的高級選項

1、字符編碼

默認自動識別。如果該頁面未能自動識別發生亂碼，需要自行選擇字符編碼。可以選擇GBK或UTF-8。

2、文檔類型

默認自動識別。可以選擇采集xml文檔。

3、網頁類型

適用于一個模板配置大批量網站的情況（可導入上萬個采集地址），選擇類型后，可以自動過濾不屬于該類型的網頁，從而達到快速配置的目的。
網頁類型包括：全部類型、導航頁、列表頁、（文本）內容頁、詳情頁、附件、未知頁。

4、主題過濾

自動識別網頁的語義，并采集屬于某些類別的數據，過濾掉不屬于某些類別的數據。（針對自動分類器使用，如有需求請聯系我們定制。）

5.、未匹配處理模板

適用于一個模板配置大批量網站的情況，當有頁面不符合匹配的類型被過濾掉后，可以在此選擇一個針對未匹配頁面的處理模板，進入其他處理流程。

總結

以上是生活随笔為你收集整理的前嗅ForeSpider教程：创建模板的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：梦到和喜欢的人去爬山是什么意思
下一篇：为什么总梦到男朋友和别的女人在一起

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

前嗅ForeSpider教程：创建模板

總結