java获取页面标签_java获取网页源代码后,提取标签内容……
java獲取網頁源代碼后,提取標簽內容……
關注:245??答案:2??mip版
解決時間 2021-02-01 09:11
提問者詠bù琂敗
2021-01-31 13:49
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;
public class Getjson
{
public static void main(String []args)
{
String htmpath = null;
BufferedReader in = null;
InputStreamReader isr = null;
InputStream is = null;
PrintWriter pw = null;
HttpURLConnection huc = null;
String [] arr = new String[2];
arr[0]= "view-source:http://baike.baidu.com/view/61891.htm";
arr[1] = "view-source:http://baike.baidu.com/view/61891.htm";
for(int i=0;i<2;i++)
{
try {
htmpath = "d:\\test\\10"+i+".txt";
pw = new PrintWriter(htmpath);
URL url = new URL(arr[i]); //創建 URL
huc = (HttpURLConnection) url.openConnection();
is = huc.getInputStream();
isr = new InputStreamReader(is);
in = new BufferedReader(isr);
String line = null;
while (((line = in.readLine()) != null)) {
if (line.length() == 0)
continue;
pw.println(line);
}
}
catch (Exception e) {
System.err.println(e);
} finally { //無論如何都要關閉流
try {
is.close();
isr.close();
in.close();
huc.disconnect();
pw.close();
} catch (Exception e) {
}
}
}
}
}上面的可以提取網頁源代碼
但是我想知道怎么先用正則表達式,提取
標簽的內容后,再寫入.txt文本中。謝謝各位大俠
url寫錯了,應該是http://baike.baidu.com/view/61891.htm,提取出來的網頁源代碼好還是亂碼
最佳答案
二級知識專家你可以浪但我不會等
2021-01-31 14:47
你可以去看看 Jsoup
全部回答
1樓是你的阿離
2021-01-31 16:13
同問。。。
我要舉報
如果感覺以上信息為低俗/不良/侵權的信息,可以點下面鏈接進行舉報,我們會做出相應處理,感謝你的支持!
點此我要舉報以上信息!
推薦資訊
大家都在看
總結
以上是生活随笔為你收集整理的java获取页面标签_java获取网页源代码后,提取标签内容……的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 郑州看子宫纵隔最好的医院推荐
- 下一篇: DNF力量对剑宗有用吗?