當(dāng)前位置：首頁(yè) > 前端技术 > HTML >内容正文

HTML

解析HTML文件 - 运用SgmlReader类来解析HTML文件

發(fā)布時(shí)間：2024/9/20 HTML 21 豆豆

生活随笔收集整理的這篇文章主要介紹了解析HTML文件 - 运用SgmlReader类来解析HTML文件小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

運(yùn)用.NET Framework類來(lái)解析HTML文件、讀取數(shù)據(jù)并不是最容易的。雖然你可以用.NET Framework中的許多類(如StreamReader)來(lái)逐行解析文件，但XmlReader提供的API并不是“取出即可用(out of the box)”的，因?yàn)镠TML的格式不規(guī)范。你可以用正則表達(dá)式(regular expression)，但如果你對(duì)這些表達(dá)式運(yùn)用不熟練，你可能開始時(shí)會(huì)覺(jué)得它們有些難。

Microsoft的XML大師Chris Lovett最近在http://www.gotdotnet.com網(wǎng)站上發(fā)布了一個(gè)新的SGML解析器，叫做SgmlReader，它可以解析HTML文件，甚至將它們轉(zhuǎn)換成一個(gè)格式規(guī)范的結(jié)構(gòu)。SgmlReader派生于XmlReader，這就是說(shuō)，你可以像運(yùn)用諸如XmlTextReader這樣的類來(lái)解析XML文件那樣來(lái)解析HTML文件。在本文中，我將介紹如何用SgmlReader類來(lái)解析HTML文件并生成格式規(guī)范的HTML，從而使你可以用XPath語(yǔ)句來(lái)讀取數(shù)據(jù)。

創(chuàng)建一個(gè)SgmlReader實(shí)例來(lái)解析HTML
在開始運(yùn)用SgmlReader前，從gotdotnet.com下載它，并將assembly放到你的應(yīng)用程序bin folder中。在可以運(yùn)用assembly集后，編寫代碼來(lái)讀取你想解析的HTML。在本文的例子中，我們用了HttpWebRequest和HttpWebResponse對(duì)象來(lái)訪問(wèn)一個(gè)遠(yuǎn)程的HTML文件： HttpWebRequest req = (HttpWebRequest)WebRequest.Create(uri);HttpWebResponse res = (HttpWebResponse)req.GetResponse();StreamReader sReader = new StreamReader(res.GetResponseStream());

在得到遠(yuǎn)程的HTML文件后，你就可以創(chuàng)建一個(gè)SgmlReader類的實(shí)例了。通過(guò)將其DocType屬性設(shè)置為“HTML”，讓用戶知道你正在處理HTML文件： SgmlReader reader = new SgmlReader();reader.DocType = "HTML";

HTML文件的響應(yīng)流可以被加載到SgmlReader實(shí)例，通過(guò)其InputStream屬性進(jìn)行解析。首先將HTML文件流加載到一個(gè)TextReader對(duì)象，然后將TextReader賦值給InputStream屬性： reader.InputStream = new StringReader(sReader.ReadToEnd());

現(xiàn)在，你就可以通過(guò)調(diào)用SgmlReader的Read()方法來(lái)解析HTML文件了： sw = new StringWriter();writer = new XmlTextWriter(sw);writer.Formatting = Formatting.Indented;while (reader.Read()) { if (reader.NodeType != XmlNodeType.Whitespace) writer.WriteNode(reader, true); }}

因?yàn)镾gmlReader創(chuàng)建了格式規(guī)范的HTML，所以你可以用XPath語(yǔ)句來(lái)讀取不同的節(jié)點(diǎn)。下面的代碼說(shuō)明了如何將SgmlReader生成的輸出結(jié)果加載到一個(gè)XPathNavigator，然后如何用一個(gè)XPath語(yǔ)句來(lái)查詢HTML文件結(jié)構(gòu)： StringBuilder sb = new StringBuilder();XPathDocument doc = new XPathDocument(new StringReader(sw.ToString()));XPathNavigator nav = doc.CreateNavigator();XPathNodeIterator nodes = nav.Select(xpath);while (nodes.MoveNext()) { sb.Append(nodes.Current.Value);}return sb.ToString();

點(diǎn)擊此處來(lái)查看SgmlReader類的一個(gè)實(shí)例演示。

如果你對(duì)XPath語(yǔ)言已經(jīng)很熟悉，并了解.NET Framework中不同的XML解析API了，那么你就可以很容易地用SgmlReader類來(lái)解析HTML并讀取數(shù)據(jù)了。

部分代碼C#

??????????? private string GetWellFormedHTML(string uri,string xpath) ...{??????????? StreamReader sReader = null;??????????? StringWriter sw = null;??????????? SgmlReader reader = null;??????????? XmlTextWriter writer = null;??????????? try ...{??????????????? if (uri == String.Empty) uri = "http://www.XMLforASP.NET";??????????????? HttpWebRequest req = (HttpWebRequest)WebRequest.Create(uri);??????????????? HttpWebResponse res = (HttpWebResponse)req.GetResponse();??????????????? sReader = new StreamReader(res.GetResponseStream());??????????????? reader = new SgmlReader();??????????????? reader.DocType = "HTML";??????????????? reader.InputStream = new StringReader(sReader.ReadToEnd());??????????????? sw = new StringWriter();??????????????? writer = new XmlTextWriter(sw);??????????????? writer.Formatting = Formatting.Indented;??????????????? //writer.WriteStartElement("Test");??????????????? while (reader.Read()) ...{??????????????????? if (reader.NodeType != XmlNodeType.Whitespace) ...{??????????????????????? writer.WriteNode(reader, true);??????????????????? }??????????????? }???????????????? //writer.WriteEndElement();??????????????? if (xpath == null) ...{??????????????????? return sw.ToString();?????????????????? } else ...{ //Filter out nodes from HTML??????????????????? StringBuilder sb = new StringBuilder();??????????????????? XPathDocument doc = new XPathDocument(new StringReader(sw.ToString()));??????????????????? XPathNavigator nav = doc.CreateNavigator();??????????????????? XPathNodeIterator nodes = nav.Select(xpath);??????????????????? while (nodes.MoveNext()) ...{??????????????????????? sb.Append(nodes.Current.Value + " ");??????????????????? }??????????????????? return sb.ToString();??????????????? }??????????? } catch (Exception exp) ...{??????????????? writer.Close();???????????????? reader.Close();??????????????? sw.Close();??????????????? sReader.Close();??????????????? return exp.Message;??????????? }??????? }

總結(jié)

以上是生活随笔為你收集整理的解析HTML文件 - 运用SgmlReader类来解析HTML文件的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： .Net解析html文档类库HtmlAg
下一篇：斑斑驾道定制版（斑斑）

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

HTML

解析HTML文件 - 运用SgmlReader类来解析HTML文件

總結(jié)