當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Node.js实现简易爬虫

發布時間：2025/6/15 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 Node.js实现简易爬虫小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為什么選擇利用node來寫爬蟲呢？就是因為cheerio這個庫，全兼容jQuery語法，熟悉的話用起來真真是爽

依賴選擇

cheerio： Node.js 版的jQuery
http：封裝了一個HTPP服務器和一個簡易的HTTP客戶端
iconv-lite：解決爬取gb2312網頁出現亂碼

初步實現

既然是要爬取網站內容，那我們就應該先去看看網站的基本構成
選取的是電影天堂作為目標網站，想要去爬取所有最新電影的下載鏈接

分析頁面

頁面結構如下：

我們可以看到每個電影的標題都在一個class為ulink的a標簽下，再往上定位，我們可以看到最外部的盒子class為co_content8

ok，可以開工了

獲取一頁電影標題

首先引入依賴，并設定需要爬取的url

var cheerio = require('cheerio'); var http = require('http'); var iconv = require('iconv-lite');var url = 'http://www.ygdy8.net/html/gndy/dyzz/index.html';

核心代碼 index.js

http.get(url, function(sres) {var chunks = [];sres.on('data', function(chunk) {chunks.push(chunk);});// chunks里面存儲著網頁的 html 內容，將它zhuan ma傳給 cheerio.load 之后// 就可以得到一個實現了 jQuery 接口的變量，將它命名為 `$`// 剩下就都是 jQuery 的內容了sres.on('end', function() {var titles = [];//由于咱們發現此網頁的編碼格式為gb2312，所以需要對其進行轉碼，否則亂碼//依據：“<meta http-equiv="Content-Type" content="text/html; charset=gb2312">”var html = iconv.decode(Buffer.concat(chunks), 'gb2312');var $ = cheerio.load(html, {decodeEntities: false});$('.co_content8 .ulink').each(function (idx, element) {var $element = $(element);titles.push({title: $element.text()})}) console.log(titles); }); });

運行node index

結果如下

成功獲取電影title，那如果我想獲取多個頁面的title呢，總不可能一個一個url去改吧。這當然有辦法，請往下看！

獲取多頁電影標題

我們只要將之前的代碼封裝成一個函數并遞歸執行就完成了

核心代碼 index.js

結果如下

獲取電影下載連接

如果是人工操作，我們需要一次操作，通過點擊進入電影詳情頁才能找到下載地址
那我們通過node如何來實現呢

常規先來分析頁面布局

我們如果想要準確定位到下載鏈接，需要先找到id為Zoom的div，下載鏈接就在這個div下的tr下的a標簽內。

那我們就再定義一個函數，用于獲取下載鏈接

getBtLink()

再次運行 node index

就這樣我們將3個頁面內所有電影的下載鏈接獲取完畢，是不是很簡單？

保存數據

我們講這些數據爬取出來當然是要進行保存的啊，在這里我選用了MongoDB來對其進行保存處理

數據保存函數 save()

這里的操作很簡單，就沒必要上mongoose啦
再次運行 node index

這個Node.js實現的爬蟲就是這樣了，祝大家能爬到自己想要的數據；）

最后附上源碼地址：https://github.com/HuangXiZho...

總結

以上是生活随笔為你收集整理的Node.js实现简易爬虫的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【BZOJ2738】矩阵乘法 [整体二分
下一篇： Oracle 快速插入1000万条数据的