當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java获取页面标签_java获取网页源代码后，提取标签内容……

發布時間：2023/12/1 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 java获取页面标签_java获取网页源代码后，提取标签内容…… 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

java獲取網頁源代碼后，提取標簽內容……

關注:245??答案:2??mip版

解決時間 2021-02-01 09:11

提問者詠bù琂敗

2021-01-31 13:49

import java.io.BufferedReader;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;

public class Getjson

{

public static void main(String []args)

{

String htmpath = null;

BufferedReader in = null;

InputStreamReader isr = null;

InputStream is = null;

PrintWriter pw = null;

HttpURLConnection huc = null;

String [] arr = new String[2];

arr[0]= "view-source:http://baike.baidu.com/view/61891.htm";

arr[1] = "view-source:http://baike.baidu.com/view/61891.htm";

for(int i=0;i<2;i++)

{

try {

htmpath = "d:\\test\\10"+i+".txt";

pw = new PrintWriter(htmpath);

URL url = new URL(arr[i]); //創建 URL

huc = (HttpURLConnection) url.openConnection();

is = huc.getInputStream();

isr = new InputStreamReader(is);

in = new BufferedReader(isr);

String line = null;

while (((line = in.readLine()) != null)) {

if (line.length() == 0)

continue;

pw.println(line);

}

catch (Exception e) {

System.err.println(e);

} finally { //無論如何都要關閉流

try {

is.close();

isr.close();

in.close();

huc.disconnect();

pw.close();

} catch (Exception e) {

}

}上面的可以提取網頁源代碼

但是我想知道怎么先用正則表達式，提取

標簽的內容后，再寫入.txt文本中。謝謝各位大俠

url寫錯了，應該是http://baike.baidu.com/view/61891.htm，提取出來的網頁源代碼好還是亂碼

最佳答案

二級知識專家你可以浪但我不會等

2021-01-31 14:47

你可以去看看 Jsoup

全部回答

1樓是你的阿離

2021-01-31 16:13

同問。。。

我要舉報

如果感覺以上信息為低俗/不良/侵權的信息，可以點下面鏈接進行舉報，我們會做出相應處理，感謝你的支持！

點此我要舉報以上信息！

推薦資訊

總結

以上是生活随笔為你收集整理的java获取页面标签_java获取网页源代码后，提取标签内容……的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

java获取页面标签_java获取网页源代码后，提取标签内容……

總結