首页 > 软件开发 > PYTHON >

Python爬取时如何判断HTML标签

来源:互联网 2023-03-16 19:06:49 339

Python爬取时对html标签进行判断gCH办公区 - 实用经验教程分享!

工具/原料

  • Python 3.6及以上环境

方法/步骤

  • 1

    首先获取到html的源代码,示例如下:gCH办公区 - 实用经验教程分享!

    import requestsgCH办公区 - 实用经验教程分享!

    response = requests.get(url).textgCH办公区 - 实用经验教程分享!

    此时response就是这个url的html源代码。gCH办公区 - 实用经验教程分享!

    Python爬取时如何判断HTML标签gCH办公区 - 实用经验教程分享!

  • 2

    得到源代码之后就要判断html的标签了。gCH办公区 - 实用经验教程分享!

    可以直接判断:gCH办公区 - 实用经验教程分享!

    if 'baidu' in response:gCH办公区 - 实用经验教程分享!

    print('baidu 这个字符串在源代码里')gCH办公区 - 实用经验教程分享!

    else:gCH办公区 - 实用经验教程分享!

    print('baidu 这个字符串不在源代码里')gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    当然这种情况适合要判断的html比较固定,比如就是‘baidu’这个字符串,或者其他固定不变的字符串都是可以的。gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    那如果字符串是变化的怎么办呢?往下看。gCH办公区 - 实用经验教程分享!

  • 3

    如果要判断的html标签是变化的,需要找到变化的规律,然后用正则表达式来判断即可。gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    比如图片中的一截代码,如果id='2'中的2是变化的,可能是3可能是5等。gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    import regCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    if re.search("id='(\d )'",response).group():gCH办公区 - 实用经验教程分享!

    print('html标签中包含id')gCH办公区 - 实用经验教程分享!

    else:gCH办公区 - 实用经验教程分享!

    print('html标签中不包含id')gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    gCH办公区 - 实用经验教程分享!

    这样就可以灵活判断html的标签了。gCH办公区 - 实用经验教程分享!

    Python爬取时如何判断HTML标签gCH办公区 - 实用经验教程分享!

  • 4

    以上两种方法可以简单的判断html的标签,正则表达式在实际使用中要灵活使用。gCH办公区 - 实用经验教程分享!

  • 4相关内容非法爬取自百度经验
  • 注意事项

    • 注意浏览器看到的源代码和Python获取的源代码是否相同

    以上方法由办公区教程网编辑摘抄自百度经验可供大家参考!gCH办公区 - 实用经验教程分享!


    标签: pythonHTML

    办公区 Copyright © 2016-2023 www.bgqu.net. Some Rights Reserved. 备案号:湘ICP备2020019561号统计代码