织梦采集侠采集问题
??????????? 用織夢的后臺開發個好幾個項目,最近又了解了一下織夢的采集俠,覺得簡單易上手,在這里簡單的總結一下采集過程和所遇到的問題,希望對大家能夠有所幫助。
??? 一:采集俠下載安裝
???????? 可以選擇在官網直接下載:https://www.caijixia.net/,安裝步驟什么的在官網上都可以找到,安裝之后可以在后臺管理系統中看到多了采集這一板塊內容,接下里就可以對目標網站進行采集。
?
? ? ? 二:采集規則:
???????? 1.點擊采集管理添加新節點,新節點可以為自己的欄目名字,然后進入規則編輯頁面,記住要選擇目標網站的編碼方式,打開目標網站頁面查看源碼查找charset看對應的編碼,然后選中對應的原點,引用網址直接填寫自己所要采集的目標網站的對應網址。
????????? 2.由于很多新聞列表分頁都是有規律的,這里可以用批量生成或手工生成,比如我們采集CSDN知識庫全部動態這一塊內容,匹配網址為http://lib.csdn.net/?page=(*)#md,如果手工生成的話就是http://lib.csdn.net/?page=1#md;http://lib.csdn.net/?page=2#md……這樣輸入自己所要采集的網址列表。接下來就是要采集文章網址,列表開始的地方和結束的地方對應目標網站源碼的對應區域,以剛剛提到的網址為例,可看到文章列表用寫在ul標簽里,然后找到開頭和結尾的地方把標簽寫入,再點擊內容配置進行進一步配置。
?????? 3.預覽網址就寫入自己所要測試的文章內容網址,內容分頁導航的匹配規則查看目標網站的源碼查找首頁,上一頁下一頁這樣的字眼找到他們的類名或標簽,正文,作者和源碼內容的調用也是這樣,調用正文的時候我們一般要過濾掉div,以免對我們自己的樣式造成影響,我們直接上圖,
點擊保存測試就可以看出我們的列表和文章內容所需要的內容都調用出來了,這時候就可以點擊確定并開始采集了,查看下載內容是否正確,最后再導入數據到自己所想要發布的欄目中,所有的采集步驟就結束了。
????????
???
總結
- 上一篇: 十步一拆:iPhone4S拆机十步曲
- 下一篇: HEVC中的样点自适应补偿——Sampl