當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

HtmlUnit爬取页面列表链接

發布時間：2025/4/16 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 HtmlUnit爬取页面列表链接小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

場景：爬蟲網頁列表上的鏈接，用于再次爬蟲，主要功能是列表翻頁功能。

代碼參考：

package com;import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.DomElement; import com.gargoylesoftware.htmlunit.html.DomNodeList; import com.gargoylesoftware.htmlunit.html.HtmlDivision; import com.gargoylesoftware.htmlunit.html.HtmlElement; import com.gargoylesoftware.htmlunit.html.HtmlPage;public class BlogAutoClick {public static void main(String[] args){String sUrl="IP";//網址 //webclient設置 final WebClient webClient = new WebClient(BrowserVersion.CHROME); //創建一個webclient webClient.getOptions().setJavaScriptEnabled(true); // 啟動JS webClient.getOptions().setUseInsecureSSL(true);//忽略ssl認證 webClient.getOptions().setCssEnabled(false);//禁用Css，可避免自動二次請求CSS進行渲染 webClient.getOptions().setThrowExceptionOnScriptError(false);//運行錯誤時，不拋出異常 webClient.getOptions().setThrowExceptionOnFailingStatusCode(false); webClient.setAjaxController(new NicelyResynchronizingAjaxController());// 設置Ajax異步 //登錄 int i_clickCount=0;try { HtmlPage page = (HtmlPage) webClient.getPage(sUrl); webClient.waitForBackgroundJavaScript(10000);//等待1秒 boolean flag=true;while(flag){//本頁鏈接點擊HtmlDivision articlediv=(HtmlDivision)page.getElementById("article_list"); DomNodeList<HtmlElement> articleas=articlediv.getElementsByTagName("a"); for(HtmlElement a:articleas){HtmlPage llpage=(HtmlPage)a.click();DomNodeList<DomElement> h1name= llpage.getElementsByTagName("h1");String strname=h1name.get(0).asText(); i_clickCount++;System.out.print("article:"+strname+"is auto clicked at times:"+i_clickCount);}//翻頁HtmlDivision pagediv=(HtmlDivision)page.getElementById("papelist");DomNodeList<HtmlElement> pageas=pagediv.getElementsByTagName("a");boolean nextpage=false;for(HtmlElement a:pageas){if (a.asText().equals("下一頁")) {page=(HtmlPage)a.click();webClient.waitForBackgroundJavaScript(10000);//等待1秒 nextpage=true;//下一頁存在break;}}if(nextpage==false) flag=false;//沒有下一頁了，退出循環}}catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } }

總結

以上是生活随笔為你收集整理的HtmlUnit爬取页面列表链接的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：冠军杜兰特和Deta比赛
下一篇： RSA非对称加密算法Java实现

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

HtmlUnit爬取页面列表链接

總結