Android-jsoup爬虫
Android Jsoup爬蟲
? 最近項目中需要用到一些數據,苦于沒有數據源。在網上各種搜羅爬蟲的第三方工具:火車頭、八爪魚這些都不太理想,偶然間發現github上有一個java開源的項目“jsoup”利用java代碼去操作網頁的元素,感覺可行。今天就給大家帶來在android中如何使用jsoup爬蟲的教程。
1.新建android工程,導入jsoup包
1.首先將jsoup的包下載下來,他是以jar包的形式提供的,也可以使用依賴的方式(這里我是用jar的形式)。下載地址:https://jsoup.org/download
2.將下載好的jar包放入工程的libs文件夾下
3.將jar包依賴到工程中
2.開始使用
我們來到我們新建的MainActivity中開始編寫代碼,這里我以爬我自己的一篇博客為例。
Jsoup.connect("https://blog.csdn.net/qq_36050563/article/details/109710952")通過connect(‘爬取的網址’)與此地址建立起連接。
Document document = Jsoup.connect("https://blog.csdn.net/qq_36050563/article/details/109710952").get();通過get方式獲取Doucment對象,如果你學習過前端對整個文檔對象一定不陌生,有了他就可以操作整個html頁面的元素了。注意這里會有異常tye-catch一下就好。
3.爬取
我要爬取的網頁是整個樣子的
1.比如我想爬取這個網頁的標題,先要在瀏覽器中F12審查元素,點擊左上角的小箭頭指向這個標題
這里的h1就是標題,他有class 和 id 有這兩個我們就能很好的找到這個標題了,當然通過’‘h1’'標簽也能找到。
這樣標題我們就拿到了。
如果用document.getElementsByClass(“title-article”)的話返回的是一個數組,你需要再取到第一個元素才行。包括document.getElemengsByTag(“h1”)標簽選擇器也是一樣的。
4.高級爬取
有人可能會問如果我爬取的是一個列表,每個列表的詳情需要點進去才能獲取到該如何是好?
這里給點小的提示,那就通過類選擇器或者標簽選擇器獲取這個外面的列表。一般這種列表都是a標簽,循環拿到他的href屬性中的鏈接地址,通過connect(‘爬取的網址’)與此地址建立起連接就可以了。
5.結語
好了今天的android版本的爬蟲就講到這里,下一篇帶大家實現高級爬蟲功能+greendao數據庫實現本地存儲。
總結
以上是生活随笔為你收集整理的Android-jsoup爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: input和raw_input
- 下一篇: mysql innodb redolog