當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

83款网络爬虫开源软件

發(fā)布時(shí)間：2025/7/14 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 83款网络爬虫开源软件小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

網(wǎng)絡(luò)爬蟲(chóng)介紹及其比較

http://www.docin.com/p-321349858.html

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&

搜索引擎 Nutch

Nutch?是一個(gè)開(kāi)源Java?實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲(chóng)。盡管Web搜索是漫游Internet的基本要求, 但是現(xiàn)有web搜索引擎的數(shù)目卻在下降. 并且這很有可能進(jìn)一步演變成為一個(gè)公司壟斷了幾乎所有的web... 更多Nutch信息

最近更新：【每日一博】Nutch 的 url 的正則過(guò)濾機(jī)制研究發(fā)布于 20天前

網(wǎng)站爬蟲(chóng) Grub Next Generation

Grub Next Generation 是一個(gè)分布式的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)，包含客戶端和服務(wù)器可以用來(lái)維護(hù)網(wǎng)頁(yè)的索引。更多Grub Next Generation信息

最近更新：Grub Next Generation 1.0 發(fā)布發(fā)布于 3年前

網(wǎng)站數(shù)據(jù)采集軟件網(wǎng)絡(luò)礦工采集器（原soukey采摘）

Soukey采摘網(wǎng)站數(shù)據(jù)采集軟件是一款基于.Net平臺(tái)的開(kāi)源軟件，也是網(wǎng)站數(shù)據(jù)采集軟件類(lèi)型中唯一一款開(kāi)源軟件。盡管Soukey采摘開(kāi)源，但并不會(huì) 影響軟件功能的提供，甚至要比一些商用軟件的功能還要豐富。Soukey采摘當(dāng)前提供的主要功能如下： 1.??? 多任務(wù)多線... 更多網(wǎng)絡(luò)礦工采集器（原soukey采摘）信息

PHP的Web爬蟲(chóng)和搜索引擎 PhpDig

PhpDig是一個(gè)采用PHP開(kāi)發(fā)的Web爬蟲(chóng)和搜索引擎。通過(guò)對(duì)動(dòng)態(tài)和靜態(tài)頁(yè)面進(jìn)行索引建立一個(gè)詞匯表。當(dāng)搜索查詢時(shí)，它將按一定的排序規(guī)則顯示包含關(guān) 鍵字的搜索結(jié)果頁(yè)面。PhpDig包含一個(gè)模板系統(tǒng)并能夠索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專(zhuān)業(yè)化更... 更多PhpDig信息

網(wǎng)站內(nèi)容采集器 Snoopy

Snoopy是一個(gè)強(qiáng)大的網(wǎng)站內(nèi)容采集器（爬蟲(chóng)）。提供獲取網(wǎng)頁(yè)內(nèi)容，提交表單等功能。更多Snoopy信息

Java網(wǎng)頁(yè)爬蟲(chóng) JSpider

JSpider是一個(gè)用Java實(shí)現(xiàn)的WebSpider，JSpider的執(zhí)行格式如下： jspider [URL] [ConfigName] URL一定要加上協(xié)議名稱(chēng)，如：http://，否則會(huì)報(bào)錯(cuò)。如果省掉ConfigName，則采用默認(rèn)配置。 JSpider 的行為是由配置文件具體配置的，比如采用什么插件，結(jié)果存儲(chǔ)方... 更多JSpider信息

網(wǎng)絡(luò)爬蟲(chóng)程序 NWebCrawler

NWebCrawler是一款開(kāi)源的C#網(wǎng)絡(luò)爬蟲(chóng)程序更多NWebCrawler信息

web爬蟲(chóng) Heritrix

Heritrix是一個(gè)開(kāi)源，可擴(kuò)展的web爬蟲(chóng)項(xiàng)目。用戶可以使用它來(lái)從網(wǎng)上抓取想要的資源。Heritrix設(shè)計(jì)成嚴(yán)格按照robots.txt文件的排除指示和META robots標(biāo)簽。其最出色之處在于它良好的可擴(kuò)展性,方便用戶實(shí)現(xiàn)自己的抓取邏輯。 Heritrix是一個(gè)爬蟲(chóng)框架，其組織結(jié)... 更多Heritrix信息

Web爬蟲(chóng)框架 Scrapy

Scrapy 是一套基于基于Twisted的異步處理框架，純python實(shí)現(xiàn)的爬蟲(chóng)框架，用戶只需要定制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲(chóng)，用來(lái)抓取網(wǎng)頁(yè)內(nèi)容以及各種圖片，非常之方便～更多Scrapy信息

最近更新：使用 Scrapy 建立一個(gè)網(wǎng)站抓取器發(fā)布于 6個(gè)月前

垂直爬蟲(chóng) webmagic

webmagic的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)框架，它提供簡(jiǎn)單靈活的API，只需少量代碼即可實(shí)現(xiàn)一個(gè)爬蟲(chóng)。以下是爬取oschina博客的一段代碼： Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).t... 更多webmagic信息

最近更新：WebMagic 0.5.2發(fā)布，Java爬蟲(chóng)框架發(fā)布于 1個(gè)月前

OpenWebSpider

OpenWebSpider是一個(gè)開(kāi)源多線程Web Spider（robot：機(jī)器人，crawler：爬蟲(chóng))和包含許多有趣功能的搜索引擎。更多OpenWebSpider信息

Java多線程Web爬蟲(chóng) Crawler4j

Crawler4j是一個(gè)開(kāi)源的Java類(lèi)庫(kù)提供一個(gè)用于抓取Web頁(yè)面的簡(jiǎn)單接口。可以利用它來(lái)構(gòu)建一個(gè)多線程的Web爬蟲(chóng)。示例代碼： import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j信息

網(wǎng)頁(yè)抓取／信息提取軟件 MetaSeeker

網(wǎng)頁(yè)抓取/信息提取/數(shù)據(jù)抽取軟件工具包MetaSeeker (GooSeeker) V4.11.2正式發(fā)布，在線版免費(fèi)下載和使用，源代碼可閱讀。自推出以來(lái)，深受喜愛(ài)，主要應(yīng)用領(lǐng)域：垂直搜索（Vertical Search）：也稱(chēng)為專(zhuān)業(yè)搜索，高速、海量和精確抓取是定題網(wǎng)絡(luò)爬蟲(chóng)DataScrap... 更多MetaSeeker信息

Java網(wǎng)絡(luò)蜘蛛/網(wǎng)絡(luò)爬蟲(chóng) Spiderman

Spiderman - 又一個(gè)Java網(wǎng)絡(luò)蜘蛛/爬蟲(chóng) Spiderman 是一個(gè)基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛，它的目標(biāo)是通過(guò)簡(jiǎn)單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁(yè)信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。主要特點(diǎn) * 靈活、可擴(kuò)展性強(qiáng)，微內(nèi)核+插件式架構(gòu)，Spiderman提供了多達(dá) ... 更多Spiderman信息

網(wǎng)頁(yè)爬蟲(chóng) Methanol

Methanol 是一個(gè)模塊化的可定制的網(wǎng)頁(yè)爬蟲(chóng)軟件，主要的優(yōu)點(diǎn)是速度快。更多Methanol信息

網(wǎng)絡(luò)爬蟲(chóng)/網(wǎng)絡(luò)蜘蛛 larbin

larbin是一種開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)/網(wǎng)絡(luò)蜘蛛，由法國(guó)的年輕人 Sébastien Ailleret獨(dú)立開(kāi)發(fā)。larbin目的是能夠跟蹤頁(yè)面的url進(jìn)行擴(kuò)展的抓取，最后為搜索引擎提供廣泛的數(shù)據(jù)來(lái)源。Larbin只是一個(gè)爬蟲(chóng)，也就是說(shuō)larbin只抓取網(wǎng)頁(yè)，至于如何parse的事情則由用戶自己... 更多l(xiāng)arbin信息

爬蟲(chóng)小新 Sinawler

國(guó)內(nèi)第一個(gè)針對(duì)微博數(shù)據(jù)的爬蟲(chóng)程序！原名“新浪微博爬蟲(chóng)”。登錄后，可以指定用戶為起點(diǎn)，以該用戶的關(guān)注人、粉絲為線索，延人脈關(guān)系搜集用戶基本信息、微博數(shù)據(jù)、評(píng)論數(shù)據(jù)。該應(yīng)用獲取的數(shù)據(jù)可作為科研、與新浪微博相關(guān)的研發(fā)等的數(shù)據(jù)支持，但請(qǐng)勿用于商... 更多Sinawler信息

【免費(fèi)】死鏈接檢查軟件 Xenu

Xenu Link Sleuth 也許是你所見(jiàn)過(guò)的最小但功能最強(qiáng)大的檢查網(wǎng)站死鏈接的軟件了。你可以打開(kāi)一個(gè)本地網(wǎng)頁(yè)文件來(lái)檢查它的鏈接，也可以輸入任何網(wǎng)址來(lái)檢查。它可以分別列出網(wǎng)站的活鏈接以及死鏈接，連轉(zhuǎn)向鏈接它都分析得一清二楚；支持多線程，可以把檢查結(jié)... 更多Xenu信息

Web-Harvest

Web-Harvest是一個(gè)Java開(kāi)源Web數(shù)據(jù)抽取工具。它能夠收集指定的Web頁(yè)面并從這些頁(yè)面中提取有用的數(shù)據(jù)。Web-Harvest主要是運(yùn)用了像XSLT,XQuery,正則表達(dá)式等這些技術(shù)來(lái)實(shí)現(xiàn)對(duì)text/xml的操作。更多Web-Harvest信息

網(wǎng)頁(yè)抓取工具 PlayFish

playfish 是一個(gè)采用java技術(shù)，綜合應(yīng)用多個(gè)開(kāi)源java組件實(shí)現(xiàn)的網(wǎng)頁(yè)抓取工具，通過(guò)XML配置文件實(shí)現(xiàn)高度可定制性與可擴(kuò)展性的網(wǎng)頁(yè)抓取工具應(yīng)用開(kāi)源jar包包括httpclient(內(nèi)容讀取),dom4j（配置文件解析）,jericho（html解析），已經(jīng)在 war包的lib下。這個(gè)

易得網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)

本系統(tǒng)采用主流編程語(yǔ)言php和mysql數(shù)據(jù)庫(kù)，您可以通過(guò)自定義采集規(guī)則，或者到我的網(wǎng)站下載共享的規(guī)則，針對(duì)網(wǎng)站或者網(wǎng)站群，采集您所需的數(shù)據(jù)，您也可以向所有人共享您的采集規(guī)則哦。通過(guò)數(shù)據(jù)瀏覽和編輯器，編輯您所采集的數(shù)據(jù)。本系統(tǒng)所有代碼完全開(kāi)源，... 更多易得網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)信息

網(wǎng)頁(yè)爬蟲(chóng) YaCy

YaCy基于p2p的分布式Web搜索引擎.同時(shí)也是一個(gè)Http緩存代理服務(wù)器.這個(gè)項(xiàng)目是構(gòu)建基于p2p Web索引網(wǎng)絡(luò)的一個(gè)新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁(yè)或啟動(dòng)分布式Crawling等. 更多YaCy信息

最近更新： YaCy 1.4 發(fā)布，分布式Web搜索引擎發(fā)布于 1年前

Web爬蟲(chóng)框架 Smart and Simple Web Crawler

Smart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接數(shù)組開(kāi)始，提供兩種遍歷模式：最大迭代和最大深度。可以設(shè)置過(guò)濾器限制爬回來(lái)的鏈接，默認(rèn)提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularE... 更多Smart and Simple Web Crawler信息

Web爬蟲(chóng)程序 CrawlZilla

crawlzilla 是一個(gè)幫你輕鬆建立搜尋引擎的自由軟體，有了它，你就不用依靠商業(yè)公司的收尋引擎，也不用再煩惱公司內(nèi)部網(wǎng)站資料索引的問(wèn)題由 nutch 專(zhuān)案為核心，並整合更多相關(guān)套件，並開(kāi)發(fā)設(shè)計(jì)安裝與管理UI，讓使用者更方便上手。 crawlzilla 除了爬取基本... 更多CrawlZilla信息

簡(jiǎn)易HTTP爬蟲(chóng) HttpBot

HttpBot 是對(duì) java.net.HttpURLConnection類(lèi)的簡(jiǎn)單封裝，可以方便的獲取網(wǎng)頁(yè)內(nèi)容，并且自動(dòng)管理session，自動(dòng)處理301重定向等。雖然不能像HttpClient那樣強(qiáng)大，支持完整的Http協(xié)議，但卻非常地靈活，可以滿足我目前所有的相關(guān)需求。... 更多HttpBot信息

新聞采集器 NZBGet

NZBGet是一個(gè)新聞采集器，其中從新聞組下載的資料格式為nzb文件。它可用于單機(jī)和服務(wù)器/客戶端模式。在獨(dú)立模式中通過(guò)nzb文件作為參數(shù)的命令行來(lái)下載文件。服務(wù)器和客戶端都只有一個(gè)可執(zhí)行文件”nzbget”。功能和特點(diǎn) 控制臺(tái)界面，使用純文本，彩色文字或... 更多NZBGet信息

網(wǎng)頁(yè)爬蟲(chóng) Ex-Crawler

Ex-Crawler 是一個(gè)網(wǎng)頁(yè)爬蟲(chóng)，采用 Java 開(kāi)發(fā)，該項(xiàng)目分成兩部分，一個(gè)是守護(hù)進(jìn)程，另外一個(gè)是靈活可配置的 Web 爬蟲(chóng)。使用數(shù)據(jù)庫(kù)存儲(chǔ)網(wǎng)頁(yè)信息。更多Ex-Crawler信息

招聘信息爬蟲(chóng) JobHunter

JobHunter旨在自動(dòng)地從一些大型站點(diǎn)來(lái)獲取招聘信息，如chinahr,51job,zhaopin等等。JobHunter 搜索每個(gè)工作項(xiàng)目的郵件地址，自動(dòng)地向這一郵件地址發(fā)送申請(qǐng)文本。更多JobHunter信息

網(wǎng)頁(yè)爬蟲(chóng)框架 hispider

HiSpider is a fast and high performance spider with high speed 嚴(yán)格說(shuō)只能是一個(gè)spider系統(tǒng)的框架, 沒(méi)有細(xì)化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊(duì)列化任務(wù), 支持N機(jī)分布式下載, 支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist). 特征... 更多hispider信息

Perl爬蟲(chóng)程序 Combine

Combine 是一個(gè)用Perl語(yǔ)言開(kāi)發(fā)的開(kāi)放的可擴(kuò)展的互聯(lián)網(wǎng)資源爬蟲(chóng)程序。更多Combine信息
web爬蟲(chóng) jcrawl

jcrawl是一款小巧性能優(yōu)良的的web爬蟲(chóng),它可以從網(wǎng)頁(yè)抓取各種類(lèi)型的文件,基于用戶定義的符號(hào),比如email,qq. 更多jcrawl信息

分布式網(wǎng)頁(yè)爬蟲(chóng) Ebot

Ebot 是一個(gè)用 ErLang 語(yǔ)言開(kāi)發(fā)的可伸縮的分布式網(wǎng)頁(yè)爬蟲(chóng)，URLs 被保存在數(shù)據(jù)庫(kù)中可通過(guò) RESTful 的 HTTP 請(qǐng)求來(lái)查詢。更多Ebot信息

多線程web爬蟲(chóng)程序 spidernet

spidernet是一個(gè)以遞歸樹(shù)為模型的多線程web爬蟲(chóng)程序, 支持text/html資源的獲取. 可以設(shè)定爬行深度, 最大下載字節(jié)數(shù)限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲(chǔ)于sqlite數(shù)據(jù)文件. 源碼中TODO:標(biāo)記描述了未完成功能, 希望提交你的代碼.... 更多spidernet信息

ItSucks

ItSucks是一個(gè)java web spider（web機(jī)器人，爬蟲(chóng)）開(kāi)源項(xiàng)目。支持通過(guò)下載模板和正則表達(dá)式來(lái)定義下載規(guī)則。提供一個(gè)swing GUI操作界面。 ? 更多ItSucks信息

網(wǎng)頁(yè)搜索爬蟲(chóng) BlueLeech

BlueLeech是一個(gè)開(kāi)源程序，它從指定的URL開(kāi)始，搜索所有可用的鏈接，以及鏈接之上的鏈接。它在搜索的同時(shí)可以下載遇到的鏈接所指向的所有的或預(yù)定義的范圍的內(nèi)容。更多BlueLeech信息

URL監(jiān)控腳本 urlwatch

urlwatch 是一個(gè)用來(lái)監(jiān)控指定的URL地址的 Python 腳本，一旦指定的 URL 內(nèi)容有變化時(shí)候?qū)⑼ㄟ^(guò)郵件方式通知到。基本功能配置簡(jiǎn)單，通過(guò)文本文件來(lái)指定URL，一行一個(gè)URL地址； Easily hackable (clean Python implementation) Can run as a cronjob and m... 更多urlwatch信息

最近更新： urlwatch 1.8 發(fā)布發(fā)布于 4年前

Methabot

Methabot 是一個(gè)經(jīng)過(guò)速度優(yōu)化的高可配置的 WEB、FTP、本地文件系統(tǒng)的爬蟲(chóng)軟件。更多Methabot信息
web 搜索和爬蟲(chóng) Leopdo

用JAVA編寫(xiě)的web 搜索和爬蟲(chóng)，包括全文和分類(lèi)垂直搜索，以及分詞系統(tǒng) 更多Leopdo信息

Web爬蟲(chóng)工具 NCrawler

NCrawler 是一個(gè)Web Crawler 工具，它可以讓開(kāi)發(fā)人員很輕松的發(fā)展出具有Web Crawler 能力的應(yīng)用程式，并且具有可以延展的能力，讓開(kāi)發(fā)人員可以擴(kuò)充它的功能，以支援其他類(lèi)型的資源（例如PDF /Word/Excel 等檔案或其他資料來(lái)源）。 NCrawler 使用多執(zhí)行緒（... 更多NCrawler信息

Ajax爬蟲(chóng)和測(cè)試 Crawljax

Crawljax: java編寫(xiě)，開(kāi)放源代碼。 Crawljax 是一個(gè) Java 的工具用于自動(dòng)化的爬取和測(cè)試現(xiàn)在的 Ajax Web 應(yīng)用。

總結(jié)

以上是生活随笔為你收集整理的83款网络爬虫开源软件的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Hive常用的SQL命令操作
下一篇： Java中的移位操作以及基本数据类型转换