前嗅ForeSpider教程:如何创建新任务
一,創建新任務操作步驟:
1.添加新任務
點擊任務列表右側,新建任務文件。
【添加任務】
此時會出現一個彈框,可以在彈框中填寫采集地址,修改任務名稱,以及選擇是否需要登錄/關鍵詞采集。
【新建任務】
2.填寫采集地址
在彈窗里填寫采集地址和任務名稱。
【填寫采集地址】
采集地址一般選擇目標網站的入口地址,比如首頁。
大多數情況下,采集地址只填寫一個url地址。如果鏈接的頁面結構和層級結構是一致的,能夠套用同一套采集模板進行采集,可填寫多個采集地址,中間用回車換行分隔。如果不一致,需要創建新的采集任務。
例1:采集整個淘寶網全部商品的信息,淘寶網首頁就是入口地址。
例2:只采集“女裝”類別的商品信息,“女裝”首頁就是入口地址。
例3:只采集某商品的評論信息,該商品的鏈接地址就是入口地址。
3.選擇當前頁面所需內容
創建新的任務之后,點擊“下一步”,選擇頁面需要抽取內容。
①抽取鏈接:需要抽取頁面上的鏈接時,選擇抽取鏈接以及具體的鏈接類型,會建立對應的鏈接抽取。(方式一:智能過濾/方式二:定位過濾/方式三:地址/標題過濾)
②抽取數據:需要抽取頁面上的數據時,選擇抽取數據,會建立對應的數據抽取。(>>如何選擇表單)
例如:
需要采集新聞的正文數據,當前頁面是新聞首頁,匯集了新聞的鏈接,正文數據是通過點擊新聞鏈接進入的,所以本頁面需要抽取新聞鏈接。
軟件預置了一些常見的鏈接頁面場景,此時勾選鏈接列表,軟件會自動建立一個鏈接抽取。
【選擇頁面抽取內容】
點擊“完成”,軟件自動創建對應的抽取內容的模板。
二,創建新任務注意事項
1.如何選擇采集類型
采集類型分為默認(html)和本地文件目錄兩種。
(1)默認(html):采集網站上的各種信息
(2)本地文件目錄:采集本地文件目錄信息。
【設置采集類型】
2.什么情況下選擇瀏覽器采集
在頁面均由JS生成時,采集效果不理想的情況下,可以嘗試使用“瀏覽器采集”,該方式近乎于在瀏覽器上點擊,會減慢采集速度,但是對JS語法的支持更加全面。
瀏覽器采集:通過瀏覽器的方式采集數據。
適用情況:由大量JS生成的,采集難度大的網頁。對JS語法的支持更加全面,近乎于在瀏覽器上點擊,但采集速度慢、效率低。
【設置瀏覽器采集】
3.Cookie的使用方法
① 配置Cookie
(1)填寫Cookie:
正常情況下(除JS生成的Cookie外),軟件會自動獲取Cookie。
當軟件無法獲取到網頁的Cookie時,需要參考下文從瀏覽器尋找Cookie。
(2)禁用Cookie的情況:
對于不需要Cookie的網站,選擇“禁用Cookie”,可加快采集速度。
【Cookie配置】
② 如何通過瀏覽器尋找cookie
在獲取不到登錄狀態的時候,可以通過瀏覽器的F12開發者工具進行手動的獲取Cookie。首先先用瀏覽器打開網頁,點擊F12打開開發者工具,如圖所示。
接下來點擊network網絡任務列表。
在瀏覽器上輸入用戶名密碼,點擊登錄
可以在network里面看到出現很多條任務,從中就可以找到關于登錄的cookie。
③ 多賬號登錄的Cookie處理
當需要登錄多個賬號來抓取同一個網頁時,可以在采集列表中設置多個采集任務,采集地址填寫一個地址,填寫不同的Cookie信息即可。
4.什么情況下禁用JavaScript
對于有些把JavaScript只用于美觀效果的網頁,關閉JavaScript不影響采集數據時,可以加快采集速度。
【JavaScript配置】
總結
以上是生活随笔為你收集整理的前嗅ForeSpider教程:如何创建新任务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 买保险哪个保险好,推荐以下4类
- 下一篇: 缺钱急用钱怎么办