首页 > 软件开发 > JAVA >

写一个java爬虫

来源:互联网 2023-03-16 19:17:55 175

一般我们说到爬虫程序,我们总是会想到python的爬虫,然而python爬虫拥有一些天生的劣势,python的具体实现基本是固定好的,我们无法了解底层的实现,这也就导致很多网站都可以反爬虫,今天由我给大家介绍一下使用java来写作一个爬虫,java的爬虫功能相当强大,目前我就没发现任何网站可以对java爬虫有抵制作用。nXd办公区 - 实用经验教程分享!

工具/原料

  • eclipse
  • jdk 1.7版本及以上

方法/步骤

  • 1

    首先我们先来介绍一下我们需要import的jar包吧:nXd办公区 - 实用经验教程分享!

    1.org.jsoup,这个是一个java解析html的包,它的作用是解析网页的代码,这个功能特别强大以至于没有任何网站可以做到反解析。nXd办公区 - 实用经验教程分享!

    2.java.io,这一部分其实是不需要的,我用到这个只是因为我先把网页保存在本地,再进行网页代码的解析。至于为什么要这么做,会在之后的说明中提到。nXd办公区 - 实用经验教程分享!

    3.java.net 这个包是java的网络包,我们必须依赖于这个包来使用java连接网络。nXd办公区 - 实用经验教程分享!

    写一个java爬虫nXd办公区 - 实用经验教程分享!

  • 2

    我们先来讲解一下怎么把网上的html保存在本地,我们先建立我们的输入输出流buffer,然后在建立一个url来获取我们的所需要爬的网页,注意我们是采用ipad的动态访问来实现的,以防止反爬虫对我们的阻挠。nXd办公区 - 实用经验教程分享!

    最后我们生成的buffer里面存放了我们的html代码,然后保存在本地。nXd办公区 - 实用经验教程分享!

    写一个java爬虫nXd办公区 - 实用经验教程分享!

  • 2此文章未经许可获取自百度经验
  • 3

    我现在来和大家说说为啥保存在本地吧,直接在网页上反复的爬我们需要的数据,难免会引起服务器的警觉,就和你看到一个漂亮的姑娘一样,一直盯着别人打量总会被发现,但是偷偷拍张照回家慢慢看就没啥事,啊哈哈开个玩笑,不过大体意思就是这样的。nXd办公区 - 实用经验教程分享!

  • 4

    而这一部分讲解的就是如何获取html文件里面有用的信息了,众所周知,html里面的代码是占了很大一部分的,我们要从中获取对我们有用的文字才是我们所要做的事情。nXd办公区 - 实用经验教程分享!

    而这一段代码就通过分析html里面的标签,比如A>/A>这些标签来分析复杂代码中富有价值的文字信息以及超链接。nXd办公区 - 实用经验教程分享!

    当然,获取什么标签内的内容可以自行选择。nXd办公区 - 实用经验教程分享!

    写一个java爬虫nXd办公区 - 实用经验教程分享!

    写一个java爬虫nXd办公区 - 实用经验教程分享!

  • 5

    最后,让我们来尝试着爬我们需要的网站吧:下图为运行方法及爬虫网页nXd办公区 - 实用经验教程分享!

    我们要爬的是这个网页的抬头:nXd办公区 - 实用经验教程分享!

    写一个java爬虫nXd办公区 - 实用经验教程分享!

    写一个java爬虫nXd办公区 - 实用经验教程分享!

  • 6

    我们的爬虫结果如下:nXd办公区 - 实用经验教程分享!

    嗯,看来是爬虫的相当的成功,各位读者感兴趣的话可以自己尝试下java爬虫,相信我,这个功能是真的很强大,也很简单。nXd办公区 - 实用经验教程分享!

    写一个java爬虫nXd办公区 - 实用经验教程分享!

  • 注意事项

    • jsoup这个包需要网上下载或者使用maven下载
    • 大批量的爬网页建议爬完一个删一个,否则本地网页会不断累积

    以上方法由办公区教程网编辑摘抄自百度经验可供大家参考!nXd办公区 - 实用经验教程分享!


    标签: JAVA网页HTML

    办公区 Copyright © 2016-2023 www.bgqu.net. Some Rights Reserved. 备案号:湘ICP备2020019561号统计代码