當前位置：首頁 > 编程语言 > java >内容正文

java

别人家的程序员是如何使用 Java 进行 Web 抓取的？

發(fā)布時間：2025/3/18 java 22 豆豆

生活随笔收集整理的這篇文章主要介紹了别人家的程序员是如何使用 Java 进行 Web 抓取的？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Web抓取非常有用，它可以收集信息供多種用途使用，如數(shù)據(jù)分析、統(tǒng)計、提供第三方信息，還可以給深神經(jīng)網(wǎng)絡和深度學習提供數(shù)據(jù)。

Web抓取是什么？

有一種非常廣泛的誤解，人們似乎把Web抓取和Web爬蟲當成了同一種東西。所以我們先明確這一點。

兩者有個非常顯著的區(qū)別：

Web爬蟲，指搜索或“爬”網(wǎng)頁以獲得任意信息的過程。通常是搜索引擎如Google、Yahoo或Bing的功能，以便給我們顯示搜索結(jié)果。

Web抓取，指從特定的網(wǎng)站上利用特別定制的自動化軟件手機信息的過程。
創(chuàng)一個小群，供大家學習交流聊天
如果有對學JAVA方面有什么疑惑問題的，或者有什么想說的想聊的大家可以一起交流學習一起進步呀。
也希望大家對學JAVA能夠持之以恒
JAVA愛好群，
如果你想要學好JAVA最好加入一個組織，這樣大家學習的話就比較方便，還能夠共同交流和分享資料，給你推薦一個學習的組織：快樂學習JAVA組織可以點擊組織二字，可以直達

注意！

盡管Web抓取本身是從網(wǎng)站獲取信息的合法方式，但如果使用不當，可能會變成非法。

有幾種情況需要特別注意：

Web抓取可以被認為是拒絕服務攻擊：發(fā)送太多請求來獲取數(shù)據(jù)會給服務器帶來太多壓力，從而限制了正常用戶訪問網(wǎng)站的能力。

無視版權法和服務條款：因為許多人、許多組織和公司都開發(fā)Web抓取軟件來收集信息，給許多網(wǎng)站如Amazon、eBay、LinkedIn、Instagram、Facebook等帶來了不小的麻煩。因此，絕大多數(shù)網(wǎng)站都禁止使用抓取軟件獲取他們的數(shù)據(jù)，你必須獲得書面許可才能收集數(shù)據(jù)。

Web抓取可被惡意使用：抓取軟件的行為很像機器人，一些框架甚至提供能夠自動填寫并提交表單的工具。因此可以被用作自動垃圾發(fā)送工具，甚至能攻擊網(wǎng)站。這也是CAPTCHA存在的原因之一。

如果你想開發(fā)一個強大的抓取軟件，請務必考慮以上幾點，遵守法律和法規(guī)。

Web抓取框架

就像許多現(xiàn)代科技一樣，從網(wǎng)站提取信息這一功能也有多個框架可以選擇。最流行的有JSoup、HTMLUnit和Selenium WebDriver。我們這篇文章討論JSoup。

JSoup

JSoup是個開源項目，提供強大的數(shù)據(jù)提取API。可以用它來解析給定URL、文件或字符串中的HTML。它還能操縱HTML元素和屬性。

使用JSoup解析字符串

解析字符串是JSoup的最簡單的使用方式。

public class JSoupExample {

public static void main(String[] args) {String html = "<html><head><title>Website title</title></head><body><p>Sample paragraph number 1 </p><p>Sample paragraph number 2</p></body></html>";Document doc = Jsoup.parse(html);System.out.println(doc.title());Elements paragraphs = doc.getElementsByTag("p");for (Element paragraph : paragraphs) {System.out.println(paragraph.text());}}

這段代碼非常直觀。調(diào)用parse()方法可以解析輸入的HTML，將其變成Document對象。調(diào)用該對象的方法就能操縱并提取數(shù)據(jù)。

在上面的例子中，我們首先輸出頁面的標題。然后，我們獲取所有帶有標簽“p”的元素。然后我們依次輸出每個段落的文本。

運行這段代碼，我們可以得到以下輸出：

Website title

Sample paragraph number 1

Sample paragraph number 2
使用JSoup解析URL

解析URL的方法跟解析字符串有點不一樣，但基本原理是相同的：

public class JSoupExample {

public static void main(String[] args) throws IOException {Document doc = Jsoup.connect("https://www.wikipedia.org").get();Elements titles = doc.getElementsByClass("other-project");for (Element title : titles) {System.out.println(title.text());}}

}
要從URL抓取數(shù)據(jù)，需要調(diào)用connect()方法，提供URL作為參數(shù)。然后使用get()從連接中獲取HTML。這個例子的輸出為：

Commons Freely usable photos & more

Wikivoyage Free travel guide

Wiktionary Free dictionary

Wikibooks Free textbooks

Wikinews Free news source

Wikidata Free knowledge base

Wikiversity Free course materials

Wikiquote Free quote compendium

MediaWiki Free & open wiki application

Wikisource Free library

Wikispecies Free species directory

Meta-Wiki Community coordination & documentation
可以看到，這個程序抓取了所有class為other-project的元素。

這種方法是最常用的，因此我們看一些通過URL進行抓取的其他例子。

抓取指定URL的所有鏈接

public void allLinksInUrl() throws IOException {

Document doc = Jsoup.connect("https://www.wikipedia.org").get();Elements links = doc.select("a[href]");for (Element link : links) {System.out.println("\nlink : " + link.attr("href"));System.out.println("text : " + link.text());}}

運行結(jié)果是一個很長的列表：

Link : //en.wikipedia.org/

Text : English 5 678 000+ articles

Link : //ja.wikipedia.org/

Text : 日本語 1 112 000+ 記事

Link : //es.wikipedia.org/

Text : Espa?ol 1 430 000+ artículos

Link : //de.wikipedia.org/

Text : Deutsch 2 197 000+ Artikel

Link : //ru.wikipedia.org/

Text : Русский 1 482 000+ статей

Link : //it.wikipedia.org/

Text : Italiano 1 447 000+ voci

Link : //fr.wikipedia.org/

Text : Fran?ais 2 000 000+ articles

Link : //zh.wikipedia.org/

Text : 中文 1 013 000+ 條目

Text : Wiktionary Free dictionary

Link : //www.wikibooks.org/

Text : Wikibooks Free textbooks

Link : //www.wikinews.org/

Text : Wikinews Free news source

Link : //www.wikidata.org/

Text : Wikidata Free knowledge base

Link : //www.wikiversity.org/

Text : Wikiversity Free course materials

Link : //www.wikiquote.org/

Text : Wikiquote Free quote compendium

Link : //www.mediawiki.org/

Text : MediaWiki Free & open wiki application

Link : //www.wikisource.org/

Text : Wikisource Free library

Link : //species.wikimedia.org/

Text : Wikispecies Free species directory

Link : //meta.wikimedia.org/

Text : Meta-Wiki Community coordination & documentation

Link : https://creativecommons.org/l...

Text : Creative Commons Attribution-ShareAlike License

Link : //meta.wikimedia.org/wiki/Terms_of_Use

Text : Terms of Use

Link : //meta.wikimedia.org/wiki/Privacy_policy

Text : Privacy Policy
與此相似，你還可以得到圖像的數(shù)量、元信息、表單參數(shù)等一切你能想到的東西，因此經(jīng)常被用于獲取統(tǒng)計數(shù)據(jù)。

使用JSoup解析文件

public void parseFile() throws URISyntaxException, IOException {

URL path = ClassLoader.getSystemResource("page.html");File inputFile = new File(path.toURI());Document document = Jsoup.parse(inputFile, "UTF-8");System.out.println(document.title());//parse document in any way}

如果要解析文件，就不需要給網(wǎng)站發(fā)送請求，因此不用擔心運行程序會給服務器增添太多負擔。盡管這種方法有許多限制，并且數(shù)據(jù)是靜態(tài)的，因而不適合許多任務，但它提供了分析數(shù)據(jù)的更合法、更無害的方式。

得到的文檔可以用前面說過的任何方式解析。

設置屬性值

除了讀取字符串、URL和文件并獲取數(shù)據(jù)之外，我們還能修改數(shù)據(jù)和輸入表單。

例如，在訪問亞馬遜時，點擊左上角的網(wǎng)站標志，能返回到網(wǎng)站的首頁。

如果想改變這個行為，可以這樣做：

public void setAttributes() throws IOException {

Document doc = Jsoup.connect("https://www.amazon.com").get();Element element = doc.getElementById("nav-logo");System.out.println("Element: " + element.outerHtml());element.children().attr("href", "notamazon.org");System.out.println("Element with set attribute: " + element.outerHtml());}

獲取網(wǎng)站標志的id后，我們可以查看其HTML。還可以訪問它的子元素，并改變其屬性。

Element: <div id="nav-logo">

<span class="nav-logo-base nav-sprite">Amazon</span> <span class="nav-logo-ext nav-sprite"></span> <span class="nav-logo-locale nav-sprite"></span>

Try Prime

</div>

Element with set attribute: <div id="nav-logo">

<span class="nav-logo-base nav-sprite">Amazon</span> <span class="nav-logo-ext nav-sprite"></span> <span class="nav-logo-locale nav-sprite"></span>

Try Prime

</div>
默認情況下，兩個子元素都指向了各自的鏈接。將屬性改變?yōu)閯e的值之后，可以看到子元素的href屬性被更新了。

添加或刪除類

除了設置屬性值之外，我們還可以修改前面的例子，給元素添加或刪除類：

public void changePage() throws IOException {

Document doc = Jsoup.connect("https://www.amazon.com").get();Element element = doc.getElementById("nav-logo");System.out.println("Original Element: " + element.outerHtml());element.children().attr("href", "notamazon.org");System.out.println("Element with set attribute: " + element.outerHtml());element.addClass("someClass");System.out.println("Element with added class: " + element.outerHtml());element.removeClass("someClass");System.out.println("Element with removed class: " + element.outerHtml());}

運行代碼會給我們以下信息：

Original Element: <div id="nav-logo">

<span class="nav-logo-base nav-sprite">Amazon</span> <span class="nav-logo-ext nav-sprite"></span> <span class="nav-logo-locale nav-sprite"></span>

Try Prime

</div>

Element with set attribute: <div id="nav-logo">

<span class="nav-logo-base nav-sprite">Amazon</span> <span class="nav-logo-ext nav-sprite"></span> <span class="nav-logo-locale nav-sprite"></span>

Try Prime

</div>

Element with added class: <div id="nav-logo" class="someClass">

<span class="nav-logo-base nav-sprite">Amazon</span> <span class="nav-logo-ext nav-sprite"></span> <span class="nav-logo-locale nav-sprite"></span>

Try Prime

</div>

Element with removed class: <div id="nav-logo">

<span class="nav-logo-base nav-sprite">Amazon</span> <span class="nav-logo-ext nav-sprite"></span> <span class="nav-logo-locale nav-sprite"></span>

Try Prime

</div>
可以把新的代碼以.html形式保存到本機，或者通過HTTP請求發(fā)送大歐網(wǎng)站上，不過要注意后者可能是非法的。

結(jié)論

在許多情況下Web抓取都很有用，但使用時務必要遵守法律。本文介紹了流行的Web抓取框架JSoup，以及使用它解析信息的幾種方式。

總結(jié)

以上是生活随笔為你收集整理的别人家的程序员是如何使用 Java 进行 Web 抓取的？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Eclipse基金会发布MicroPro
下一篇：我们常常意识不到问题的存在，直到有人解决

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

java

别人家的程序员是如何使用 Java 进行 Web 抓取的？

總結(jié)