前嗅ForeSpider教程:采集新浪新闻
? ?最近后臺(tái)有很多童鞋問怎么采集新聞,今天小編以采集新浪新聞為例,來為大家進(jìn)行演示,同樣適用于其他新聞網(wǎng)站的采集,具體操作如下:
?
第一步:新建任務(wù)
①點(diǎn)擊左上角“加號(hào)”新建任務(wù),如圖1:
?
②在彈窗里填寫采集地址,任務(wù)名稱,如圖2:
③點(diǎn)擊下一步,選擇進(jìn)行數(shù)據(jù)抽取還是鏈接抽取,本次采集當(dāng)前列表頁新聞的正文數(shù)據(jù),正文數(shù)據(jù)是通過點(diǎn)擊列表鏈接進(jìn)入的,所以本次需要抽取列表鏈接,所以點(diǎn)擊抽取鏈接,如圖3:
?
第二步:通過定位過濾、地址過濾,得到所需鏈接
①按住Ctrl+鼠標(biāo)左鍵,進(jìn)行區(qū)域選擇,按住Shift+鼠標(biāo)左鍵,擴(kuò)大選擇區(qū)域,點(diǎn)擊“確認(rèn)選區(qū)”按鈕,如圖4:
②點(diǎn)擊采集預(yù)覽,在采集預(yù)覽中有于目標(biāo)鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標(biāo)鏈接都包含“sina.com.cn/+字符串”。使用過濾串“\c”,右擊復(fù)制鏈接,如圖5所示。過濾串規(guī)則說明:\c??表示一串(個(gè))小寫字母
③勾選地址過濾,過濾規(guī)則選擇包含,填入“sina.com.cn/\c”,得到列表鏈接,如圖6所示。
④點(diǎn)擊采集預(yù)覽確認(rèn)鏈接是否過濾完全,如圖7:
?
第三步:關(guān)聯(lián)模板
在軟件中模板的關(guān)聯(lián)關(guān)系,與網(wǎng)頁中鏈接跳轉(zhuǎn)的關(guān)系相同。根據(jù)網(wǎng)頁跳轉(zhuǎn)規(guī)律,將“鏈接列表”關(guān)聯(lián)模板二“鏈接列表:02”,此處由于我們開始就選擇了創(chuàng)建列表鏈接,所以軟件自動(dòng)關(guān)聯(lián)好了模板二。如果配置的時(shí)候發(fā)現(xiàn)關(guān)聯(lián)有問題,可以自己進(jìn)行更改,如圖8:
?
第四步:填寫模板二示例地址并新建數(shù)據(jù)抽取
①?模板一過濾得到的任意一條鏈接,作為模板二的示例地址。如https://news.sina.com.cn/c/zj/2018-12-25/doc-ihqhqcis0255892.shtml, 見圖9:
②新建數(shù)據(jù)抽取
方法一:通過點(diǎn)擊“下一步”后勾選抽取數(shù)據(jù),再次點(diǎn)擊“下一步”得到數(shù)據(jù)抽取。
方法二:直接點(diǎn)擊模板二,點(diǎn)擊上面“新建數(shù)據(jù)抽取”按鈕,得到數(shù)據(jù)抽取,重命名為新浪新聞,如圖10:
?
第五步:創(chuàng)建/選擇表單
在ForeSpider爬蟲中,表單是可以復(fù)用的,所以可以在數(shù)據(jù)表單出直接選擇之前建過的表單,也可以通過表單ID來進(jìn)行查找并關(guān)聯(lián)數(shù)據(jù)表單。此處使用的是之前建過的新浪網(wǎng)的表單。
方法一:通過下拉菜單或表單ID選擇已有表單
方法二:點(diǎn)擊創(chuàng)建表單進(jìn)入快速建表頁面,新建表單,如圖11所示:
方法三:點(diǎn)擊“采集配置”-“數(shù)據(jù)建表”,點(diǎn)擊采“采集表單”后面的如圖12:
?
第六步:配置表單
根據(jù)所需內(nèi)容,配置表單字段(即表頭),此處配置了包括網(wǎng)頁主鍵、網(wǎng)頁標(biāo)題、網(wǎng)頁地址、網(wǎng)頁創(chuàng)建時(shí)間、內(nèi)容、發(fā)布來源6個(gè)字段,表單如圖13:
?
第七步:字段取值
取值方法:按住Ctrl+鼠標(biāo)左鍵,進(jìn)行區(qū)域選擇,按住Shift+鼠標(biāo)左鍵,擴(kuò)大選擇區(qū)域。點(diǎn)擊“確認(rèn)選區(qū)”按鈕,確認(rèn)操作。text、from_addr字段,如圖14:
?
第八步:模板預(yù)覽
①鼠標(biāo)右鍵點(diǎn)擊“數(shù)據(jù)抽取”,然后點(diǎn)擊“模板預(yù)覽”,如圖15:
?
②預(yù)覽結(jié)果如圖16:
?
第九步:采集預(yù)覽
①點(diǎn)擊右上角采集預(yù)覽,如圖17:
②雙擊任意一條鏈接,看看是否可以得到和網(wǎng)頁對(duì)應(yīng)的規(guī)整的數(shù)據(jù),如圖18:
總結(jié)
以上是生活随笔為你收集整理的前嗅ForeSpider教程:采集新浪新闻的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 八皇后问题分析与Java实现
- 下一篇: 微软windows10易升_Window