java爬虫框架动态_java爬虫框架webmagic
最近需要爬去網(wǎng)站的一些商品,就開始在網(wǎng)上找方法,本來是想著用Python做的,因為以前用Python寫過一個小腳本,爬取一個文獻網(wǎng)站上的免費文獻.
步驟大概是這樣的:1,先獲取給定URL的html文件,然后在這個文件中用正則表達式匹配出需要的URL(可能含有分頁的URL),然后再獲取匹配出的URL的html,在這些html文件中會有可以下載的PDF文件的鏈接,然后把這些鏈接存到磁盤中.(這中間因為網(wǎng)站有防爬蟲,所以中間花了點時間在模擬瀏覽器上).拿到鏈接之后,就是下載文獻了,寫了一個shell腳本,每次讀一個鏈接下載,然后保存到指定的文件夾中.
這次的需求跟以前的需求有所不同,需要抓取目標網(wǎng)站的一些商品的信息,比上次有點復(fù)雜.花了一兩天時間在網(wǎng)上找了好幾個框架,最后決定使用webmagic基于Java的框架.
選擇這個框架也是因為這個框架很方便,很容易進行二次開發(fā),而且也集成了一些其它的工具,比如提取指定html標簽的元素等.
webmagic四個主要的組件:1,downloader;2,PageProcessor;3,Scheduler;4,Pipeline.
Downloader負責從網(wǎng)上下載頁面,PageProcessor負責解析頁面,提取有用的信息,發(fā)現(xiàn)鏈接,Scheduler管理未抓取的URL以及去重,Pipeline就是存儲和顯示數(shù)據(jù)了,可以打印到控制臺,輸出到本地文件或者寫入數(shù)據(jù)庫.
這些組件webmagic都已經(jīng)實現(xiàn)了,使用者只需要設(shè)計自己提取內(nèi)容的規(guī)則就可以了.
附上鏈接https://github.com/code4craft/webmagic
總結(jié)
以上是生活随笔為你收集整理的java爬虫框架动态_java爬虫框架webmagic的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: java push_back,将一个结构
 - 下一篇: 学java的正确方法_学习Java编程