首页 > 软件开发 > HTML >

C#中使用HtmlAgilityPack对html进行解析

来源:互联网 2023-03-16 19:07:05 98

xpath一般使用在xml的解析上比较多,实际上html是xml的一个子集。在.Net中为了方便我们对html进行操作微软为我们提供了一个轻量级并且开源的类库HtmlAgilityPack(点击下载)。比如我们想截取网页上某一部分文字获取其他元素的时候我们一般都是使用正则表达式一步一步的来进行处理的,这个过程相当的繁琐特别是对正则表达式不熟悉的情况,通过HtmlAgilityPack这个过程就变得相当简单了。下面我们来看下HtmlAgilityPack的基本使用方法。zKY办公区 - 实用经验教程分享!

工具/原料

  • Google浏览器
  • HtmlAgilityPack开源Xpath解析库
  • VS2010
  • 一台电脑

方法/步骤

  • 1

    下载HtmlAgilityPack 下载地址:http://www.studycsharp.com/thread-44-1-1.htmlHtmlAgilityPack基本支持.Net2-.Net4.5 也支持Sliverlight和Windows Phone,大家可以根据自己的需求来使用。zKY办公区 - 实用经验教程分享!

  • 2

    引用对应的DLL本文采用.Net4开发所以选择Net40文件夹中的库zKY办公区 - 实用经验教程分享!

    C#中使用HtmlAgilityPack对html进行解析zKY办公区 - 实用经验教程分享!

    C#中使用HtmlAgilityPack对html进行解析zKY办公区 - 实用经验教程分享!

  • 3

    打开谷歌浏览器吧鼠标放在你想要获取的元素上,点击鼠标右键->审查元素->Copy XpathzKY办公区 - 实用经验教程分享!

    C#中使用HtmlAgilityPack对html进行解析zKY办公区 - 实用经验教程分享!

  • 4

    编写代码:zKY办公区 - 实用经验教程分享!

    /第一步声明HtmlAgilityPack.HtmlDocument实例zKY办公区 - 实用经验教程分享!

    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();zKY办公区 - 实用经验教程分享!

    //获取Html页面代码zKY办公区 - 实用经验教程分享!

    string html = HTMLHelper.Get_Http("http://www.studycsharp.com/");zKY办公区 - 实用经验教程分享!

    //第二步加载html文档zKY办公区 - 实用经验教程分享!

    doc.LoadHtml(html);zKY办公区 - 实用经验教程分享!

    //第三步通过Xpath选中html的指定元素 这样子就获取到了[url=http://www.studycsharp.com]www.studycsharp.com[/url]的"常用工具类"的板块链接了zKY办公区 - 实用经验教程分享!

    HtmlAgilityPack.HtmlNode htmlnode = doc.DocumentNode.SelectSingleNode("//*[@id=\"category_63\"]/table/tr[2]/td[2]/dl/dt/a");zKY办公区 - 实用经验教程分享!

    //获取所有板块的a标签zKY办公区 - 实用经验教程分享!

    HtmlAgilityPack.HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//*[starts-with(@id,'category_')]/table/tr/td/dl/dt/a");zKY办公区 - 实用经验教程分享!

    zKY办公区 - 实用经验教程分享!

    StringBuilder sb = new StringBuilder();zKY办公区 - 实用经验教程分享!

    foreach (HtmlAgilityPack.HtmlNode item in collection)zKY办公区 - 实用经验教程分享!

    {zKY办公区 - 实用经验教程分享!

    sb.Append(string.Format("{0}:{1}\r\n", item.InnerText, item.Attributes["href"].Value));zKY办公区 - 实用经验教程分享!

    }zKY办公区 - 实用经验教程分享!

    this.textBox1.Text = sb.ToString();zKY办公区 - 实用经验教程分享!

  • 4此文章非法爬取自百度经验
  • 5

    代码运行效果zKY办公区 - 实用经验教程分享!

    C#中使用HtmlAgilityPack对html进行解析zKY办公区 - 实用经验教程分享!

  • 注意事项

    • HTMLHelper.Get_Http("http://www.studycsharp.com/"); 这段函数是获取远程的Html页面
    • 上面的例子的网站是http://www.studycsharp.com

    以上方法由办公区教程网编辑摘抄自百度经验可供大家参考!zKY办公区 - 实用经验教程分享!


    标签: HTML

    办公区 Copyright © 2016-2023 www.bgqu.net. Some Rights Reserved. 备案号:湘ICP备2020019561号统计代码