如何在php搜索显示数据库数据结构_PHP如何实现抓取百度搜索结果并分析数据结构...
PHP如何實現抓取百度搜索結果并分析數據結構
發布時間:2020-09-26 09:26:19
來源:億速云
閱讀:95
作者:小新
這篇文章主要介紹PHP如何實現抓取百度搜索結果并分析數據結構,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
PHP網絡爬蟲實踐:抓取百度搜索結果,并分析數據結構
百度的搜索引擎有反爬蟲機制,我先直接用guzzle試試水。代碼如下:<?php
/**
* Created by Benjiemin
* Date: 2020/3/5
* Time: 14:58
*/
require ('./vendor/autoload.php');
use QL\QueryList;
//進入網頁
$jar = new \GuzzleHttp\Cookie\CookieJar;
$client = new GuzzleHttp\Client(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
echo '網站狀態不正常';die;
}
echo $ql->getBody();
百度直接攔截了,進了跳轉頁面,我試試加個瀏覽器頭文件,再試試。
修改后的header如下:$ql = $client->request('GET', 'https://www.baidu.com', [
'cookies' => $jar,
'headers' => [
'Accept-Encoding' => 'gzip, deflate, br',
'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Language' => 'zh-CN,zh;q=0.9,en;q=0.8',
'Cache-Control' => 'no-cache',
'Connection' => 'keep-alive',
'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);
我測試了下,網站打開了。
我們繼續,輸入關鍵詞,并搜索,結果發現被安全攔截了,所以我感覺直接用GuzzleHttp搞不動,于是我繼續我的神器:jaeger/querylist和jaeger/querylist-puppeteer。
安裝步驟:
1.安裝依賴
在這之前,要先啟用php的proc_open函數,否則無法安裝完整composer install jaeger/querylist
composer install jaeger/querylist-puppeteer
2.安裝nodejsyum install nodejs
3.安裝npm
4.安裝@nesk/puphpeteernpm install @nesk/puphpeteer
5.PHP啟用proc_open
代碼如下:<?php
/**
* Created by Benjiemin
* Date: 2020/3/5
* Time: 14:58
*/
require ('./vendor/autoload.php');
use QL\QueryList;
use QL\Ext\Chrome;
$ql = QueryList::getInstance();
// 注冊插件,默認注冊的方法名為: chrome
$ql->use(Chrome::class);
$ql->chrome(function ($page,$browser) {
$page->goto('https://www.baidu.com');
// 這里故意設置一個很長的延長時間,讓你可以看到chrome瀏覽器的啟動
sleep(3);
//輸入關鍵詞
$wd = '簡慶旺博客';
$page->type("input[id='kw']",$wd);
sleep(1);
//點擊搜索
$page->click("input[type='submit']");
//等待搜索結果
sleep(3);
//獲取結果
$html = $page->content();
//用jquery選擇器抽取結果
$rules = array(
'title'=>['#content_left h4 a','text'],//標題
'url'=>['#content_left h4 a','href'],//跳轉網址
'description'=>['div .c-abstract','text'],//描述
);
$ql = QueryList::html($html);
$rt = $ql->rules($rules)->query()->getData();
//如果有需要,可以把$rt入庫,以及做其他操作
sleep(10);
$browser->close();
// 返回值一定要是頁面的HTML內容
return $html;
},[
'headless' => false, // 啟動可視化Chrome瀏覽器,方便調試
'devtools' => false, // 打開瀏覽器的開發者工具
])->find('title')->text();
$rt是我的結果集合,打印下,如下
以上是PHP如何實現抓取百度搜索結果并分析數據結構的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
總結
以上是生活随笔為你收集整理的如何在php搜索显示数据库数据结构_PHP如何实现抓取百度搜索结果并分析数据结构...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php内部常量_PHP常量使用的几个需要
- 下一篇: 欧陆战争5云存档覆盖怎么解除