當前位置：首頁 > 编程语言 > java >内容正文

java

Java爬虫之利用Jsoup自制简单的搜索引擎

發(fā)布時間：2024/9/21 java 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 Java爬虫之利用Jsoup自制简单的搜索引擎小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

??Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。Jsoup的官方網(wǎng)址為： https://jsoup.org/，其API使用手冊網(wǎng)址為：https://jsoup.org/apidocs/ove... .
??本次分享將實現(xiàn)的功能為：利用Jsoup爬取某個搜索詞語（暫僅限英文）的百度百科的介紹部分，具體的功能介紹可以參考博客：Python爬蟲——自制簡單的搜索引擎。在上篇爬蟲中我們用Python進行爬取，這次，我們將用Java來做爬蟲，你沒看錯，就是Java.
??在Eclipse中加入Jsoup包，下載網(wǎng)址為：https://jsoup.org/download .
??爬蟲的具體代碼如下：

package baiduScrape;/* * 本爬蟲主要利用Java的Jsoup包進行網(wǎng)絡(luò)爬取* 本爬蟲的功能：爬取百度百科的開頭介紹部分* 使用方法：輸入關(guān)鍵字（目前只支持英文）即可*/import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.net.*; import java.io.*; import java.util.Scanner;public class BaiduScrape {public static void main(String[] args) {Scanner input = new Scanner(System.in);String baseUrl = "https://baike.baidu.com/item/";String url = "";// 如果輸入文字不是"exit"，則爬取其百度百科的介紹部分，否則退出該程序while(true) {System.out.println("Enter the word(Enter 'exit' to exit):");url = input.nextLine();if(url.equals("exit")) {System.out.println("The program is over.");break;}String introduction = getContent(baseUrl+url);System.out.println(introduction+'\n');}}// getContent()函數(shù)主要實現(xiàn)爬取輸入文字的百度百科的介紹部分public static String getContent(String url){// 利用URL解析網(wǎng)址URL urlObj = null;try{urlObj = new URL(url);}catch(MalformedURLException e){System.out.println("The url was malformed!");return "";}// URL連接URLConnection urlCon = null;try{urlCon = urlObj.openConnection(); // 打開URL連接// 將HTML內(nèi)容解析成UTF-8格式Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);// 刷選需要的網(wǎng)頁內(nèi)容String contentText = doc.select("div.lemma-summary").first().text();// 利用正則表達式去掉字符串中的"[數(shù)字]"contentText = contentText.replaceAll("\\[\\d+\\]", "");return contentText;}catch(IOException e){System.out.println("There was an error connecting to the URL");return "";}} }

在上述代碼中，url為輸入詞條（暫時僅限于英文），進入while循環(huán)可一直搜索，當輸入為’exit’時退出。contentText為該詞條的百度百科簡介的網(wǎng)頁形式，通過正則表達式將其中的文字提取出來。代碼雖然簡潔，但是功能還是蠻強大的，充分說明Java也是可以做爬蟲的。
??接下來是愉快的測試時間：

??本次分享到此結(jié)束，接下來也會持續(xù)更新Jsoup方面的相關(guān)知識，歡迎大家交流~~

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的Java爬虫之利用Jsoup自制简单的搜索引擎的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： JDK中的Atomic包中的类及使用
下一篇： First java program

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

java

Java爬虫之利用Jsoup自制简单的搜索引擎

總結(jié)