當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

1分钟快速生成用于网页内容提取的xslt

發布時間：2025/6/15 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 1分钟快速生成用于网页内容提取的xslt 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019獨角獸企業重金招聘Python工程師標準>>>

1，項目背景

在《Python即時網絡爬蟲項目說明》一文我們說過要做一個通用的網絡爬蟲，而且能節省程序員大半的時間，而焦點問題就是提取器使用的抓取規則需要快速生成。在《python使用xslt提取網頁數據》一文，我們已經看到這個提取規則是xslt程序，在示例程序中，直接把一長段xslt賦值給變量，但是沒有講這一段xslt是怎么來的。

網友必然會質疑：這個xslt這么長，編寫不是要花很長時間？

實際情況是，這個xslt是通過GooSeeker的MS謀數臺的直觀標注功能自動生成的，熟練的話1分鐘就搞定了。

2，MS謀數臺能做什么

MS謀數臺有個圖形化界面，把一系列html解析工具集成在一起，包括：

基于直觀標注自動生成XSLT
即時測試XSLT的正確性
樹狀的DOM結構展示
剖析某個DOM節點的屬性
為DOM節點生成XPath，可選擇定位到class、或者id、或者絕對定位
根據xpath搜索DOM節點

MS謀數臺界面分成三部分：DOM數窗口、內嵌瀏覽器窗口、工作臺。在工作臺上定義xslt轉換規則。

3，用MS謀數臺生成XSLT

假設我們要抓取論壇帖子列表，下面一步步講解操作方法：

第一步，打開GooSeeker的MS謀數臺，輸入要抓取的網址

第二步，在MS謀數臺的瀏覽器顯示窗口里，直接選取要提取的內容，并且起個名字，點擊確認

第三步，點擊工作臺的“測試”按鈕，xslt就生成了，在“數據規則”窗口顯示出來

通過以上的操作，不用編程，用圖形化界面直接在頁面上標注，1分鐘就可以生成xslt。

4，怎樣使用XSLT

在《python使用xslt提取網頁數據》一文，我們把生成xslt作為一個字符串交給程序，給人感覺好像一下子回到了史前文明，前面講的那么好，最后用了很原始的拷貝。其實不然，那個只是一個例子。在《python 即時網絡爬蟲項目: 內容提取器的定義》一文已經初見端倪了，有多種注入xslt的方式，最自動化的方式是api，將在后續文章中詳細講解。

5，文檔修改歷史

2016-05-28：V3.0，增加第二章
2016-05-26：V2.0，增補文字說明

轉載于:https://my.oschina.net/gooseeker/blog/677913

總結

以上是生活随笔為你收集整理的1分钟快速生成用于网页内容提取的xslt的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：吉特仓库管理系统-- 后台管理开源啦,源
下一篇： POJ 2217：Secretary（后

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

1分钟快速生成用于网页内容提取的xslt

總結