首页 > 软件开发 > PYTHON >

Python爬取时如何判断HTML标签

来源:互联网 2023-03-16 19:17:36 409

Python爬取时如何判断HTML标签。python语言在爬虫方面有着强大的功能,当然需要配合第三方库来进行执行,爬取到的信息也可以是多种多样的,那么网页是由HTML编写结构的,python是可以轻松判断出HTML标签的。bVo办公区 - 实用经验教程分享!

Python爬取时如何判断HTML标签bVo办公区 - 实用经验教程分享!

工具/原料

  • windows7
  • sublime text3
  • chrome浏览器

方法/步骤

  • 1

    首先我们打开编辑器,然后新建一个py后缀的文件,这是一个PYTHON的文件。bVo办公区 - 实用经验教程分享!

    Python爬取时如何判断HTML标签bVo办公区 - 实用经验教程分享!

  • 2

    from bs4 import BeautifulSoupbVo办公区 - 实用经验教程分享!

    import requestsbVo办公区 - 实用经验教程分享!

    首先要引入这两个库,这是要爬虫的非常常见的库,等会会展现他们的功能。bVo办公区 - 实用经验教程分享!

    Python爬取时如何判断HTML标签bVo办公区 - 实用经验教程分享!

  • 3

    website = "网页"bVo办公区 - 实用经验教程分享!

    result = requests.get(website)bVo办公区 - 实用经验教程分享!

    result.encoding = "utf-8"bVo办公区 - 实用经验教程分享!

    content = result.textbVo办公区 - 实用经验教程分享!

    print(content)bVo办公区 - 实用经验教程分享!

    这里我们就可以用requests这个库来先获取整个网页的HTML代码。并且打印一下查看是否有问题。bVo办公区 - 实用经验教程分享!

    Python爬取时如何判断HTML标签bVo办公区 - 实用经验教程分享!

  • 3此文章非法爬取自百度经验
  • 4

    soup = BeautifulSoup(content, "html.parser")bVo办公区 - 实用经验教程分享!

    print(soup)bVo办公区 - 实用经验教程分享!

    接着就是用BeautifulSoup来解析一下内容,并且保存在变量里面。bVo办公区 - 实用经验教程分享!

    Python爬取时如何判断HTML标签bVo办公区 - 实用经验教程分享!

  • 5

    现在可以来判断和获取HTML标签了,HTML标签是由>/>这样的格式组成的。bVo办公区 - 实用经验教程分享!

    title_tag = soup.titlebVo办公区 - 实用经验教程分享!

    print(title_tag)bVo办公区 - 实用经验教程分享!

    print(title_tag.text)bVo办公区 - 实用经验教程分享!

    比如我们看到了title标签想获取,就可以指定名字即可,如果要里面的内容可以用text。bVo办公区 - 实用经验教程分享!

    Python爬取时如何判断HTML标签bVo办公区 - 实用经验教程分享!

  • 6

    但是往往标签都是有多个的,我们需要用find_all()来把所有给找出来。bVo办公区 - 实用经验教程分享!

    div_tag = soup.find_all("div")bVo办公区 - 实用经验教程分享!

    print(div_tag)bVo办公区 - 实用经验教程分享!

    然后PYTHON会存储在列表里面。bVo办公区 - 实用经验教程分享!

    Python爬取时如何判断HTML标签bVo办公区 - 实用经验教程分享!

  • 注意事项

    • pip install可以安装第三方库

    以上方法由办公区教程网编辑摘抄自百度经验可供大家参考!bVo办公区 - 实用经验教程分享!


    标签: pythonHTML

    办公区 Copyright © 2016-2023 www.bgqu.net. Some Rights Reserved. 备案号:湘ICP备2020019561号统计代码