首页 > 软件开发 > PYTHON >

python如何处理“&#”开头加数字的html字符

来源:互联网 2023-03-16 19:16:32 版权归原作者所有,如有侵权,请联系我们

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。Mp4办公区 - 实用经验教程分享!

方法/步骤

  • 1

    用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:风水大术士Mp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

  • 1该信息非法爬取自百度经验
  • 2

    这些字符需要再次转换才能变回中文内容。Mp4办公区 - 实用经验教程分享!

  • Python2.7版本

  • 1

    在python2.7版本中,使用import HTMLParserMp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

  • 2

    定义变量,再定义转换代码。Mp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

  • 3

    代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。Mp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

  • 4

    测试运行,这串字符串正常输出了中文。Mp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

  • Python3.7 版本

  • 1

    在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。Mp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

  • 2

    导入html后,直接用".unescape()"来处理字符串。Mp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

  • 3

    运行后,正常转换成了中文字符。Mp4办公区 - 实用经验教程分享!

    python如何处理“&#”开头加数字的html字符Mp4办公区 - 实用经验教程分享!

  • 以上方法由办公区教程网编辑摘抄自百度经验可供大家参考!Mp4办公区 - 实用经验教程分享!


    标签: HTMLpython

    办公区 Copyright © 2016-2023 www.bgqu.net. Some Rights Reserved. 备案号:湘ICP备2020019561号