AngleSharp :在 C# 中轻松解析和操作 HTML/XML 文档
AngleSharp 是一個(gè) C# 庫(kù),主要用于解析和操作 HTML 和 XML 文檔,類(lèi)似于瀏覽器的 DOM 操作。允許你在 C# 中使用類(lèi)似瀏覽器的方式處理網(wǎng)頁(yè)數(shù)據(jù),進(jìn)行網(wǎng)頁(yè)抓取、數(shù)據(jù)提取和處理等任務(wù)。
安裝
第一步,老規(guī)矩,先安裝
Install-Package AngleSharp
使用
解析 HTML 文檔
using AngleSharp.Html.Parser;
var html = @"
Hello, World!
";
// 創(chuàng)建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);
// 查找
元素
var h1 = document.QuerySelector("h1");
// 輸出
中的文本
Console.WriteLine(h1.TextContent); // Output: Hello, World!
解析并抓取網(wǎng)頁(yè)
// 創(chuàng)建 HttpClient 來(lái)抓取網(wǎng)頁(yè)
using AngleSharp.Html.Parser;
using var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 創(chuàng)建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);
// 查找頁(yè)面中的標(biāo)題
var title = document.QuerySelector("title");
// 輸出頁(yè)面標(biāo)題
Console.WriteLine(title.TextContent);
DOM 操作
選擇器和查詢(xún)
var h1 = document.QuerySelector("h1"); // 獲取第一個(gè)
元素
var allLinks = document.QuerySelectorAll("a"); // 獲取所有 標(biāo)簽
獲取元素屬性
var firstLink = document.QuerySelector("a");
var href = firstLink.GetAttribute("href");
Console.WriteLine(href); // 輸出鏈接地址
修改元素
var heading = document.QuerySelector("h1");
heading.TextContent = "New Heading"; // 修改文本內(nèi)容
heading.SetAttribute("class", "new-class"); // 修改 class 屬性
遍歷節(jié)點(diǎn)
var links = document.QuerySelectorAll("a");
foreach (var link in links)
{
Console.WriteLine(link.GetAttribute("href"));
}
4異步操作
using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;
class Program
{
static async Task Main()
{
// 使用異步抓取網(wǎng)頁(yè)內(nèi)容
using var client = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 使用 HTML 解析器解析網(wǎng)頁(yè)
var parser = new HtmlParser();
var document = await parser.ParseDocumentAsync(html);
// 操作 DOM
var h1 = document.QuerySelector("h1");
Console.WriteLine(h1.TextContent);
}
}
5. 實(shí)戰(zhàn):抓取網(wǎng)頁(yè)中的所有鏈接
using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;
class Program
{
static async Task Main()
{
// 獲取網(wǎng)頁(yè)
using var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 創(chuàng)建解析器
var parser = new HtmlParser();
var document = await parser.ParseDocumentAsync(html);
// 獲取所有的鏈接
var links = document.QuerySelectorAll("a");
// 輸出所有鏈接
foreach (var link in links)
{
var href = link.GetAttribute("href");
Console.WriteLine(href);
}
}
}
總結(jié)
AngleSharp 是一個(gè)強(qiáng)大的工具,可以幫助你在 C# 中進(jìn)行 HTML 和 XML 的解析和操作。它對(duì)于網(wǎng)頁(yè)抓取、數(shù)據(jù)提取等任務(wù)非常有用。通過(guò)提供類(lèi)似瀏覽器的 DOM 操作接口,它能使你更容易地處理和操作網(wǎng)頁(yè)內(nèi)容。
歡迎關(guān)注我的公眾號(hào)“Net分享”,技術(shù)文章第一時(shí)間推送,隨緣更新 , 分享一些你可能注意不到的細(xì)節(jié)
總結(jié)
以上是生活随笔為你收集整理的AngleSharp :在 C# 中轻松解析和操作 HTML/XML 文档的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 指标的可加性
- 下一篇: 若依-Vue 单体版本 更换mybati