使用XPath解析HTML获取网页内容_王英雄

http://blog.sina.com.cn/u/1482053520

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

使用XPath解析HTML获取网页内容

(2006-05-11 16:14:05)

有的时候，我们开发的应用需要抓取网页的内容借为己用，如QQ网站的天气信息和新闻等，和Google等搜索爬虫的机制不同之处在于抓取目标的页面对开发人员而言是已知的。我们有理由避免过多的使用正则表达式的繁冗分析过程，如果能够在获取目标网页的HTML之后通过DOM来解析HTML将是一件非常愉快的事情。这里会遇到两个问题，DOM操作只能在客户端通过Javascript或VBScript等脚本语言进行，加上HTML自身不是非强格式的，不能使用类似XSL对XML解析的方式进行操作。不过既然写这篇Blog，就一定有了解决的办法J。

非常感谢Microsoft的XML大师Chris Lovett为我们带来的SgmlReader这个开源的项目。我们知道，XML和HTML都是Sgml的子集。通过SgmlReader，能够将HTML转换生成格式规范的HTML（Well-Formed HTML，虽然没有这个称呼，但这里暂且这么说），从而可以使用XML的XPath语法读取网页的数据了。那么在.NET Framework下，我们遇到的问题变得如此轻松。

PS：除了SgmlReader之外，还有Simon Mourier的.NET Html Agility Pack也具有类似的功能。

文章引用自：http://www.rsblog.net/user1/3/archives/2005/388.html

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：安装.net framework后,IIS中竟然没有aspx等映射,无法解析aspx的解决办法!

后一篇：c# 链接数据库的方法

新浪BLOG意见反馈留言板　欢迎批评指正