抓取网页工具querylist的使用简介
生活随笔
收集整理的這篇文章主要介紹了
抓取网页工具querylist的使用简介
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?
querylist的使用
首先,querylist是時下php最先進的dom采集包之一,而且是國人寫的,中文文檔很好,如果想用好,應該直接看一遍官方文檔
我這里簡單記錄下我對querylisty使用的理解。目標是用一篇文章解釋如何使用。方便我超過2個月后回憶....
操作流程
主要分為三步
舉例:
<?php require 'QueryList/vendor/autoload.php'; use QL\QueryList; $html = <<<STR <div id="one"><div class="two"><a href="http://querylist.cc">QueryList官網</a><img src="http://querylist.com/1.jpg" alt="這是圖片"><img src="http://querylist.com/2.jpg" alt="這是圖片2"></div><span>其它的<b>一些</b>文本</span> </div> STR; $rules = array('text' => array('#one','text'),'link' => array('.two>a','href'),'img' => array('.two>img:eq(1)','src'),'other' => array('span','html') );$data = QueryList::html($html) // 1.載入資源->rules($rules) // 2.篩選目標之輸入篩選規則->query() // 2.篩選目標之執行篩選->getData(); // 3.讀取結果 print_r($data->all()); // 3.讀取結果之轉換格式我們需要了解的就是每一步具體有那些更細的方法?主要第二步篩選,怎么用?
載入資源
$html = file_get_contents('https://querylist.cc/');
| html() | ql = QueryList::html($html); |
| setHtml($html) | 作用同上 ql->setHtml($html); |
| getHtml() | 獲取設置的待采集的html源碼 ql->getHtml(); |
| get() | get插件,用來輕松獲取網頁。該插件基于GuzzleHttp,請求參數與它一致。 |
篩選目標
//html源碼 $html='';//采集規則 $rules = [];//設置規則和執行篩選 $ql = QueryList::html($html)->rules($rules)->query();//讀取結果 $data = $ql->getData(); print_r($data->all());| rules($arr) | 設置篩選規則,是一個數組,看下面詳細介紹和舉例 |
| range() | 這個是rules的補充,看文檔代碼就明白了 |
| removeHead() | 移除頁面頭部head區域,亂碼終極解決方案,采集出現不可解決的亂碼問題的時候,可以嘗試調用這個方法來解決亂碼問題。 |
| query() | 執行采集規則rules,執行完這個方法后才可以用getData()方法獲取到采集數據。 |
rules單獨說明
//采集規則 $rules = array('規則名' => array('jQuery選擇器','要采集的屬性'[,"標簽過濾列表"][,"回調函數"]),'規則名2' => array('jQuery選擇器','要采集的屬性'[,"標簽過濾列表"][,"回調函數"]),.......... );| 規則名 | 不要重復 隨便寫 |
| jQuery選擇器 | jq會不 |
| 要采集的屬性 | - text:返回當前選中標簽下面的純文本 - html:返回當前選中標簽下面的html片段 - [HTML標簽屬性]:如src、href、name、data-src等任意HTML標簽屬性名 |
| 標簽過濾列表 | 設置此選項可用來過濾不想要的內容,多個值之間用空格隔開,有如下2條規則: - 當標簽名前面添加減號(-)時(此時標簽可以為任意的jQuery選擇器),表示移除該標簽以及標簽內容。 - 當標簽名前面沒有減號(-)時,當 [要采集的屬性] 值為text時表示需要保留的HTML標簽以及內容,為html時表示要過濾掉的HTML標簽但保留內容。 |
| 回調函數 | ? |
舉例:
$rules = ['link' => ['a','href'],'content' => ['.article','html','-.ad1 -.ad2'] ];讀取結果
| getData() | 返回值為Laravel中Collection集合對象,通過它的all()方法可轉為數組。 |
轉載于:https://juejin.cn/post/6844903621558009870
總結
以上是生活随笔為你收集整理的抓取网页工具querylist的使用简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 解析ViewPager(二)——View
- 下一篇: java毕业设计健身俱乐部管理系统(附源