83款 网络爬虫开源软件
網(wǎng)絡(luò)爬蟲(chóng)介紹及其比較
http://www.docin.com/p-321349858.html
1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&
?
-
搜索引擎 Nutch
Nutch?是一個(gè)開(kāi)源Java?實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲(chóng)。 盡管Web搜索是漫游Internet的基本要求, 但是現(xiàn)有web搜索引擎的數(shù)目卻在下降. 并且這很有可能進(jìn)一步演變成為一個(gè)公司壟斷了幾乎所有的web... 更多Nutch信息
最近更新:【每日一博】Nutch 的 url 的正則過(guò)濾機(jī)制研究 發(fā)布于 20天前
-
網(wǎng)站爬蟲(chóng) Grub Next Generation
Grub Next Generation 是一個(gè)分布式的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng),包含客戶端和服務(wù)器可以用來(lái)維護(hù)網(wǎng)頁(yè)的索引。 更多Grub Next Generation信息
最近更新:Grub Next Generation 1.0 發(fā)布 發(fā)布于 3年前
-
網(wǎng)站數(shù)據(jù)采集軟件 網(wǎng)絡(luò)礦工采集器(原soukey采摘)
Soukey采摘網(wǎng)站數(shù)據(jù)采集軟件是一款基于.Net平臺(tái)的開(kāi)源軟件,也是網(wǎng)站數(shù)據(jù)采集軟件類(lèi)型中唯一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源,但并不會(huì) 影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。Soukey采摘當(dāng)前提供的主要功能如下: 1.??? 多任務(wù)多線... 更多網(wǎng)絡(luò)礦工采集器(原soukey采摘)信息
-
PHP的Web爬蟲(chóng)和搜索引擎 PhpDig
PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對(duì)動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引建立一個(gè)詞匯表。當(dāng)搜索查詢時(shí),它將按一定的排序規(guī)則顯示包含關(guān) 鍵字的搜索結(jié)果頁(yè)面。PhpDig包含一個(gè)模板系統(tǒng)并能夠索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化 更... 更多PhpDig信息
-
網(wǎng)站內(nèi)容采集器 Snoopy
Snoopy是一個(gè)強(qiáng)大的網(wǎng)站內(nèi)容采集器(爬蟲(chóng))。提供獲取網(wǎng)頁(yè)內(nèi)容,提交表單等功能。 更多Snoopy信息
-
Java網(wǎng)頁(yè)爬蟲(chóng) JSpider
JSpider是一個(gè)用Java實(shí)現(xiàn)的WebSpider,JSpider的執(zhí)行格式如下: jspider [URL] [ConfigName] URL一定要加上協(xié)議名稱(chēng),如:http://,否則會(huì)報(bào)錯(cuò)。如果省掉ConfigName,則采用默認(rèn)配置。 JSpider 的行為是由配置文件具體配置的,比如采用什么插件,結(jié)果存儲(chǔ)方... 更多JSpider信息
-
網(wǎng)絡(luò)爬蟲(chóng)程序 NWebCrawler
NWebCrawler是一款開(kāi)源的C#網(wǎng)絡(luò)爬蟲(chóng)程序 更多NWebCrawler信息
-
web爬蟲(chóng) Heritrix
Heritrix是一個(gè)開(kāi)源,可擴(kuò)展的web爬蟲(chóng)項(xiàng)目。用戶可以使用它來(lái)從網(wǎng)上抓取想要的資源。Heritrix設(shè)計(jì)成嚴(yán)格按照robots.txt文件 的排除指示和META robots標(biāo)簽。其最出色之處在于它良好的可擴(kuò)展性,方便用戶實(shí)現(xiàn)自己的抓取邏輯。 Heritrix是一個(gè)爬蟲(chóng)框架,其組織結(jié)... 更多Heritrix信息
-
Web爬蟲(chóng)框架 Scrapy
Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現(xiàn)的爬蟲(chóng)框架,用戶只需要定制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內(nèi)容以及各種圖片,非常之方便~ 更多Scrapy信息
最近更新:使用 Scrapy 建立一個(gè)網(wǎng)站抓取器 發(fā)布于 6個(gè)月前
-
垂直爬蟲(chóng) webmagic
webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現(xiàn)一個(gè)爬蟲(chóng)。 以下是爬取oschina博客的一段代碼: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).t... 更多webmagic信息
最近更新:WebMagic 0.5.2發(fā)布,Java爬蟲(chóng)框架 發(fā)布于 1個(gè)月前
-
OpenWebSpider
OpenWebSpider是一個(gè)開(kāi)源多線程Web Spider(robot:機(jī)器人,crawler:爬蟲(chóng))和包含許多有趣功能的搜索引擎。 更多OpenWebSpider信息
-
Java多線程Web爬蟲(chóng) Crawler4j
Crawler4j是一個(gè)開(kāi)源的Java類(lèi)庫(kù)提供一個(gè)用于抓取Web頁(yè)面的簡(jiǎn)單接口。可以利用它來(lái)構(gòu)建一個(gè)多線程的Web爬蟲(chóng)。 示例代碼: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j信息
-
網(wǎng)頁(yè)抓取/信息提取軟件 MetaSeeker
網(wǎng)頁(yè)抓取/信息提取/數(shù)據(jù)抽取軟件工具包MetaSeeker (GooSeeker) V4.11.2正式發(fā)布,在線版免費(fèi)下載和使用,源代碼可閱讀。自推出以來(lái),深受喜愛(ài),主要應(yīng)用領(lǐng)域: 垂直搜索(Vertical Search):也稱(chēng)為專(zhuān)業(yè)搜索,高速、海量和精確抓取是定題網(wǎng)絡(luò)爬蟲(chóng)DataScrap... 更多MetaSeeker信息
-
Java網(wǎng)絡(luò)蜘蛛/網(wǎng)絡(luò)爬蟲(chóng) Spiderman
Spiderman - 又一個(gè)Java網(wǎng)絡(luò)蜘蛛/爬蟲(chóng) Spiderman 是一個(gè)基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛,它的目標(biāo)是通過(guò)簡(jiǎn)單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁(yè)信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。 主要特點(diǎn) * 靈活、可擴(kuò)展性強(qiáng),微內(nèi)核+插件式架構(gòu),Spiderman提供了多達(dá) ... 更多Spiderman信息
-
網(wǎng)頁(yè)爬蟲(chóng) Methanol
Methanol 是一個(gè)模塊化的可定制的網(wǎng)頁(yè)爬蟲(chóng)軟件,主要的優(yōu)點(diǎn)是速度快。 更多Methanol信息
-
網(wǎng)絡(luò)爬蟲(chóng)/網(wǎng)絡(luò)蜘蛛 larbin
larbin是一種開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)/網(wǎng)絡(luò)蜘蛛,由法國(guó)的年輕人 Sébastien Ailleret獨(dú)立開(kāi)發(fā)。larbin目的是能夠跟蹤頁(yè)面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來(lái)源。Larbin只是一個(gè)爬蟲(chóng),也就 是說(shuō)larbin只抓取網(wǎng)頁(yè),至于如何parse的事情則由用戶自己... 更多l(xiāng)arbin信息
-
爬蟲(chóng)小新 Sinawler
國(guó)內(nèi)第一個(gè)針對(duì)微博數(shù)據(jù)的爬蟲(chóng)程序!原名“新浪微博爬蟲(chóng)”。 登錄后,可以指定用戶為起點(diǎn),以該用戶的關(guān)注人、粉絲為線索,延人脈關(guān)系搜集用戶基本信息、微博數(shù)據(jù)、評(píng)論數(shù)據(jù)。 該應(yīng)用獲取的數(shù)據(jù)可作為科研、與新浪微博相關(guān)的研發(fā)等的數(shù)據(jù)支持,但請(qǐng)勿用于商... 更多Sinawler信息
-
【免費(fèi)】死鏈接檢查軟件 Xenu
Xenu Link Sleuth 也許是你所見(jiàn)過(guò)的最小但功能最強(qiáng)大的檢查網(wǎng)站死鏈接的軟件了。你可以打開(kāi)一個(gè)本地網(wǎng)頁(yè)文件來(lái)檢查它的鏈接,也可以輸入任何網(wǎng)址來(lái)檢查。它可以分別列出網(wǎng)站 的活鏈接以及死鏈接,連轉(zhuǎn)向鏈接它都分析得一清二楚;支持多線程 ,可以把檢查結(jié)... 更多Xenu信息
-
Web-Harvest
Web-Harvest是一個(gè)Java開(kāi)源Web數(shù)據(jù)抽取工具。它能夠收集指定的Web頁(yè)面并從這些頁(yè)面中提取有用的數(shù)據(jù)。Web-Harvest主要是運(yùn)用了像XSLT,XQuery,正則表達(dá)式等這些技術(shù)來(lái)實(shí)現(xiàn)對(duì)text/xml的操作。 更多Web-Harvest信息
-
網(wǎng)頁(yè)抓取工具 PlayFish
-
playfish 是一個(gè)采用java技術(shù),綜合應(yīng)用多個(gè)開(kāi)源java組件實(shí)現(xiàn)的網(wǎng)頁(yè)抓取工具,通過(guò)XML配置文件實(shí)現(xiàn)高度可定制性與可擴(kuò)展性的網(wǎng)頁(yè)抓取工 具 應(yīng)用開(kāi)源jar包包括httpclient(內(nèi)容讀取),dom4j(配置文件解析),jericho(html解析),已經(jīng)在 war包的lib下。 這個(gè)
-
易得網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)
本系統(tǒng)采用主流編程語(yǔ)言php和mysql數(shù)據(jù)庫(kù),您可以通過(guò)自定義采集規(guī)則,或者到我的網(wǎng)站下載共享的規(guī)則,針對(duì)網(wǎng)站或者網(wǎng)站群,采集您所需的數(shù)據(jù),您 也可以向所有人共享您的采集規(guī)則哦。通過(guò)數(shù)據(jù)瀏覽和編輯器,編輯您所采集的數(shù)據(jù)。 本系統(tǒng)所有代碼完全開(kāi)源,... 更多易得網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)信息
-
網(wǎng)頁(yè)爬蟲(chóng) YaCy
YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項(xiàng)目是構(gòu)建基于p2p Web索引網(wǎng)絡(luò)的一個(gè)新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等. 更多YaCy信息
最近更新: YaCy 1.4 發(fā)布,分布式Web搜索引擎 發(fā)布于 1年前
-
Web爬蟲(chóng)框架 Smart and Simple Web Crawler
Smart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接數(shù)組開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度。可以設(shè)置 過(guò)濾器限制爬回來(lái)的鏈接,默認(rèn)提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularE... 更多Smart and Simple Web Crawler信息
-
Web爬蟲(chóng)程序 CrawlZilla
crawlzilla 是一個(gè)幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業(yè)公司的收尋引擎,也不用再煩惱公司內(nèi)部網(wǎng)站資料索引的問(wèn)題 由 nutch 專(zhuān)案為核心,並整合更多相關(guān)套件,並開(kāi)發(fā)設(shè)計(jì)安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本... 更多CrawlZilla信息
-
簡(jiǎn)易HTTP爬蟲(chóng) HttpBot
HttpBot 是對(duì) java.net.HttpURLConnection類(lèi)的簡(jiǎn)單封裝,可以方便的獲取網(wǎng)頁(yè)內(nèi)容,并且自動(dòng)管理session,自動(dòng)處理301重定向等。雖 然不能像HttpClient那樣強(qiáng)大,支持完整的Http協(xié)議,但卻非常地靈活,可以滿足我目前所有的相關(guān)需求。... 更多HttpBot信息
-
新聞采集器 NZBGet
NZBGet是一個(gè)新聞采集器,其中從新聞組下載的資料格式為nzb文件。它可用于單機(jī)和服務(wù)器/客戶端模式。在獨(dú)立模式中通過(guò)nzb文件作為參數(shù)的命令 行來(lái)下載文件。服務(wù)器和客戶端都只有一個(gè)可執(zhí)行文件”nzbget”。 功能和特點(diǎn) 控制臺(tái)界面,使用純文本,彩色文字或... 更多NZBGet信息
-
網(wǎng)頁(yè)爬蟲(chóng) Ex-Crawler
Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng),采用 Java 開(kāi)發(fā),該項(xiàng)目分成兩部分,一個(gè)是守護(hù)進(jìn)程,另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數(shù)據(jù)庫(kù)存儲(chǔ)網(wǎng)頁(yè)信息。 更多Ex-Crawler信息
-
招聘信息爬蟲(chóng) JobHunter
JobHunter旨在自動(dòng)地從一些大型站點(diǎn)來(lái)獲取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每個(gè)工作項(xiàng)目的郵件地址,自動(dòng)地向這一郵件地址發(fā)送申請(qǐng)文本。 更多JobHunter信息
-
網(wǎng)頁(yè)爬蟲(chóng)框架 hispider
HiSpider is a fast and high performance spider with high speed 嚴(yán)格說(shuō)只能是一個(gè)spider系統(tǒng)的框架, 沒(méi)有細(xì)化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊(duì)列化任務(wù), 支持N機(jī)分布式下載, 支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist). 特征... 更多hispider信息
-
Perl爬蟲(chóng)程序 Combine
Combine 是一個(gè)用Perl語(yǔ)言開(kāi)發(fā)的開(kāi)放的可擴(kuò)展的互聯(lián)網(wǎng)資源爬蟲(chóng)程序。 更多Combine信息
-
web爬蟲(chóng) jcrawl
jcrawl是一款小巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各種類(lèi)型的文件,基于用戶定義的符號(hào),比如email,qq. 更多jcrawl信息
-
分布式網(wǎng)頁(yè)爬蟲(chóng) Ebot
Ebot 是一個(gè)用 ErLang 語(yǔ)言開(kāi)發(fā)的可伸縮的分布式網(wǎng)頁(yè)爬蟲(chóng),URLs 被保存在數(shù)據(jù)庫(kù)中可通過(guò) RESTful 的 HTTP 請(qǐng)求來(lái)查詢。 更多Ebot信息
-
多線程web爬蟲(chóng)程序 spidernet
spidernet是一個(gè)以遞歸樹(shù)為模型的多線程web爬蟲(chóng)程序, 支持text/html資源的獲取. 可以設(shè)定爬行深度, 最大下載字節(jié)數(shù)限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲(chǔ)于sqlite數(shù)據(jù)文件. 源碼中TODO:標(biāo)記描述了未完成功能, 希望提交你的代碼.... 更多spidernet信息
-
ItSucks
ItSucks是一個(gè)java web spider(web機(jī)器人,爬蟲(chóng))開(kāi)源項(xiàng)目。支持通過(guò)下載模板和正則表達(dá)式來(lái)定義下載規(guī)則。提供一個(gè)swing GUI操作界面。 ? 更多ItSucks信息
-
網(wǎng)頁(yè)搜索爬蟲(chóng) BlueLeech
BlueLeech是一個(gè)開(kāi)源程序,它從指定的URL開(kāi)始,搜索所有可用的鏈接,以及鏈接之上的鏈接。它在搜索的同時(shí)可以下載遇到的鏈接所指向的所有的或預(yù)定義的范圍的內(nèi)容。 更多BlueLeech信息
-
URL監(jiān)控腳本 urlwatch
urlwatch 是一個(gè)用來(lái)監(jiān)控指定的URL地址的 Python 腳本,一旦指定的 URL 內(nèi)容有變化時(shí)候?qū)⑼ㄟ^(guò)郵件方式通知到。 基本功能 配置簡(jiǎn)單,通過(guò)文本文件來(lái)指定URL,一行一個(gè)URL地址; Easily hackable (clean Python implementation) Can run as a cronjob and m... 更多urlwatch信息
最近更新: urlwatch 1.8 發(fā)布 發(fā)布于 4年前
-
Methabot
Methabot 是一個(gè)經(jīng)過(guò)速度優(yōu)化的高可配置的 WEB、FTP、本地文件系統(tǒng)的爬蟲(chóng)軟件。 更多Methabot信息
-
web 搜索和爬蟲(chóng) Leopdo
用JAVA編寫(xiě)的web 搜索和爬蟲(chóng),包括全文和分類(lèi)垂直搜索,以及分詞系統(tǒng) 更多Leopdo信息
-
Web爬蟲(chóng)工具 NCrawler
NCrawler 是一個(gè)Web Crawler 工具,它可以讓開(kāi)發(fā)人員很輕松的發(fā)展出具有Web Crawler 能力的應(yīng)用程式,并且具有可以延展的能力,讓開(kāi)發(fā)人員可以擴(kuò)充它的功能,以支援其他類(lèi)型的資源(例如PDF /Word/Excel 等檔案或其他資料來(lái)源)。 NCrawler 使用多執(zhí)行緒(... 更多NCrawler信息
-
Ajax爬蟲(chóng)和測(cè)試 Crawljax
Crawljax: java編寫(xiě),開(kāi)放源代碼。 Crawljax 是一個(gè) Java 的工具用于自動(dòng)化的爬取和測(cè)試現(xiàn)在的 Ajax Web 應(yīng)用。
總結(jié)
以上是生活随笔為你收集整理的83款 网络爬虫开源软件的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Hive常用的SQL命令操作
- 下一篇: Java中的移位操作以及基本数据类型转换