當前位置：首頁 > 运维知识 > Android >内容正文

Android

Android-jsoup爬虫

發布時間：2023/12/10 Android 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Android-jsoup爬虫小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Android Jsoup爬蟲

? 最近項目中需要用到一些數據，苦于沒有數據源。在網上各種搜羅爬蟲的第三方工具：火車頭、八爪魚這些都不太理想，偶然間發現github上有一個java開源的項目“jsoup”利用java代碼去操作網頁的元素，感覺可行。今天就給大家帶來在android中如何使用jsoup爬蟲的教程。

1.新建android工程，導入jsoup包

1.首先將jsoup的包下載下來，他是以jar包的形式提供的，也可以使用依賴的方式（這里我是用jar的形式）。下載地址：https://jsoup.org/download

2.將下載好的jar包放入工程的libs文件夾下

3.將jar包依賴到工程中

2.開始使用

我們來到我們新建的MainActivity中開始編寫代碼，這里我以爬我自己的一篇博客為例。

Jsoup.connect("https://blog.csdn.net/qq_36050563/article/details/109710952")

通過connect(‘爬取的網址’)與此地址建立起連接。

Document document = Jsoup.connect("https://blog.csdn.net/qq_36050563/article/details/109710952").get();

通過get方式獲取Doucment對象，如果你學習過前端對整個文檔對象一定不陌生，有了他就可以操作整個html頁面的元素了。注意這里會有異常tye-catch一下就好。

3.爬取

我要爬取的網頁是整個樣子的

1.比如我想爬取這個網頁的標題，先要在瀏覽器中F12審查元素，點擊左上角的小箭頭指向這個標題

這里的h1就是標題，他有class 和 id 有這兩個我們就能很好的找到這個標題了，當然通過’‘h1’'標簽也能找到。

public class MainActivity extends AppCompatActivity {private static final String TAG = "MainActivity";@Overrideprotected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.activity_main);new Thread(){@Overridepublic void run() {try {Document document = Jsoup.connect("https://blog.csdn.net/qq_36050563/article/details/109710952").get();Element title = document.getElementById("articleContentId");Log.e(TAG, "run: "+title.text());} catch (IOException e) {e.printStackTrace();}}}.start();} }

這樣標題我們就拿到了。

如果用document.getElementsByClass(“title-article”)的話返回的是一個數組，你需要再取到第一個元素才行。包括document.getElemengsByTag(“h1”)標簽選擇器也是一樣的。

4.高級爬取

有人可能會問如果我爬取的是一個列表，每個列表的詳情需要點進去才能獲取到該如何是好？

這里給點小的提示，那就通過類選擇器或者標簽選擇器獲取這個外面的列表。一般這種列表都是a標簽，循環拿到他的href屬性中的鏈接地址，通過connect(‘爬取的網址’)與此地址建立起連接就可以了。

5.結語

好了今天的android版本的爬蟲就講到這里，下一篇帶大家實現高級爬蟲功能+greendao數據庫實現本地存儲。

總結

以上是生活随笔為你收集整理的Android-jsoup爬虫的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： input和raw_input
下一篇： mysql innodb redolog