将Html文档整理为规范XML文档
有多種方式可以在.NET 平臺進行HTML文件解析、數據提取,其中最簡單、穩妥的辦法是先使用工具將Html文檔整理成XML文檔,再通過XML Dom模型或XPath靈活地進行數據處理。SGML便是一個Html文檔整理工具類庫:
Microsoft的XML大師Chris Lovett專門開發了一個SGML解析器,叫做SgmlReader,它可以解析HTML文件,甚至將它們轉換成一個格式規范的結構。 SgmlReader派生于XmlReader,這就是說,你可以像運用諸如XmlTextReader這樣的類來解析XML文件那樣來解析HTML文 件。?
這是一段示例代碼:
public?static?XmlDocument?ConvertHtmlToXml(string?html)????
???using?(SgmlReader?sgmlReader?=?new?SgmlReader())?{????
???????sgmlReader.DocType?=?"HTML";????
???????sgmlReader.InputStream?=?new?StringReader(html);????
???????using?(StringWriter?stringWriter?=?new?StringWriter()){????
???????????using?(XmlTextWriter?xmlWriter?=?new?XmlTextWriter(stringWriter))????
???????????{????
???????????????while?(!sgmlReader.EOF)?{????
???????????????????xmlWriter.WriteNode(sgmlReader,?true);????
???????????????}????
???????????}????
???????}????
???}????
???XmlDocument?xmlDoc?=?new?XmlDocument();????
???xmlDoc.LoadXml(stringWriter.ToString());????
???return?xmlDoc;????
主頁:http://code.msdn.microsoft.com/SgmlReader??
語言:英文??授權形式:開源
相關網址:
http://msdn.microsoft.com/en-us/library/aa302299.aspx
下載頁(SourceForge)??SgmlReader 1.8? ?MSDN代碼庫
總結
以上是生活随笔為你收集整理的将Html文档整理为规范XML文档的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 个人自己申报个人所得税步骤
- 下一篇: 正则表达式(入门)