前嗅ForeSpider中数据采集界面介绍
2019獨角獸企業重金招聘Python工程師標準>>>
一、運行設置 數據采集前的設置,包括采集速度、采集策略、任務裝載、網絡超時、HTTP設置、加載設置、任務模式、任務定時、預警設置、過濾設置10個部分。
【運行設置界面】
二、IP代理設置
軟件支持動態和靜態IP代理,支持http/https/socket代理。當需要啟用IP代理時,需要在資源管理界面添加代理資源。
【IP代理設置界面】
1.啟用IP代理
啟用IP代理采集時,需要進行代理配置。需選中“啟用IP代理”,才能啟用IP代理功能。
【啟用IP代理】
2.IP資源列表
添加完成的IP資源后會在列表中顯示。
【IP資源列表】
:添加IP資源代理。
:刪除IP資源代理。
:保存IP資源代理
:修改IP資源代理
3.IP代理配置
可添加IP代理賬號,配置IP代理屬性。
(1)靜態代理IP
【靜態代理IP配置】
:添加IP資源代理。
:刪除IP資源代理。
:批量導入IP賬號。
:保存IP資源代理。
(2)動態代理IP
【動態代理IP配置】
①協議類型:選擇代理的協議類型,軟件支持http/https/socket代理。
②返回格式:選擇動態IP的返回格式。包括未知、Text、Json、XML。
③刷新周期:指代理IP的有效時長。
④請求地址:粘貼代理商的請求地址。
⑤POST DATA:根據代理不同,post請求的情況下填寫該內容。
⑥代碼編輯區:需要填寫一段腳本,以調用代理IP。
4.啟用代理加速
啟用代理加速后,可以在采集過程中自動篩選無效和低效率的代理IP(屏蔽錯誤率超過50%,請求次數>3次的IP),優先使用高效的代理,提升采集的效率和數據質量。
【代理加速】
5.本機IP混用策略
當代理IP失效時,選擇是否啟用本地網絡。
【本機IP混用策略】
三、驗證碼設置
當采集某些網站的數據時,每一條數據都需要輸入一條驗證碼時就用到了驗證碼設置。驗證碼設置的作用是爬蟲軟件自身輸入驗證碼,以避免人工輸入。
【驗證碼設置界面】
1.識別配平臺
軟件內置了兩個打碼平臺,可根據不同的平臺進行驗證碼配置。
【識別平臺】
(1)基礎識別平臺:預定的內置識別方式。
(2)若快:若快為打碼平臺。軟件通過打碼平臺解析驗證碼內容。
2.識別列表
添加驗證碼識別名稱。
【識別列表】
3.驗證碼設置與測試(不常用)
【資源配置】
其中紅框內詳情、保存、下載、清空、測試是用來測試驗證碼是否正確的。點擊測試如果右側驗證碼圖片與圖片下解析出來的文字一致,就證明驗證碼設置的正確。
轉載于:https://my.oschina.net/forespider/blog/3009471
總結
以上是生活随笔為你收集整理的前嗅ForeSpider中数据采集界面介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BZOJ3173:[TJOI2013]最
- 下一篇: C# 日志