IDEA中怎么设置项目更改后的分析延迟时间,IDEA是java编程语言的集成开发环境,使用该软件编写代码时,可以设置项目更改后的分析延迟时间,这样就可确保项目范围分析的正确性,具体的操作步骤如下。......
2023-07-04 628 JAVA
一般我们说到爬虫程序,我们总是会想到python的爬虫,然而python爬虫拥有一些天生的劣势,python的具体实现基本是固定好的,我们无法了解底层的实现,这也就导致很多网站都可以反爬虫,今天由我给大家介绍一下使用java来写作一个爬虫,java的爬虫功能相当强大,目前我就没发现任何网站可以对java爬虫有抵制作用。
首先我们先来介绍一下我们需要import的jar包吧:
1.org.jsoup,这个是一个java解析html的包,它的作用是解析网页的代码,这个功能特别强大以至于没有任何网站可以做到反解析。
2.java.io,这一部分其实是不需要的,我用到这个只是因为我先把网页保存在本地,再进行网页代码的解析。至于为什么要这么做,会在之后的说明中提到。
3.java.net 这个包是java的网络包,我们必须依赖于这个包来使用java连接网络。
我们先来讲解一下怎么把网上的html保存在本地,我们先建立我们的输入输出流buffer,然后在建立一个url来获取我们的所需要爬的网页,注意我们是采用ipad的动态访问来实现的,以防止反爬虫对我们的阻挠。
最后我们生成的buffer里面存放了我们的html代码,然后保存在本地。
我现在来和大家说说为啥保存在本地吧,直接在网页上反复的爬我们需要的数据,难免会引起服务器的警觉,就和你看到一个漂亮的姑娘一样,一直盯着别人打量总会被发现,但是偷偷拍张照回家慢慢看就没啥事,啊哈哈开个玩笑,不过大体意思就是这样的。
而这一部分讲解的就是如何获取html文件里面有用的信息了,众所周知,html里面的代码是占了很大一部分的,我们要从中获取对我们有用的文字才是我们所要做的事情。
而这一段代码就通过分析html里面的标签,比如A>/A>这些标签来分析复杂代码中富有价值的文字信息以及超链接。
当然,获取什么标签内的内容可以自行选择。
最后,让我们来尝试着爬我们需要的网站吧:下图为运行方法及爬虫网页
我们要爬的是这个网页的抬头:
我们的爬虫结果如下:
嗯,看来是爬虫的相当的成功,各位读者感兴趣的话可以自己尝试下java爬虫,相信我,这个功能是真的很强大,也很简单。
以上方法由办公区教程网编辑摘抄自百度经验可供大家参考!
相关文章
IDEA中怎么设置项目更改后的分析延迟时间,IDEA是java编程语言的集成开发环境,使用该软件编写代码时,可以设置项目更改后的分析延迟时间,这样就可确保项目范围分析的正确性,具体的操作步骤如下。......
2023-07-04 628 JAVA
IDEA中怎么设置调试器最近表达式的最大数量,IDEA是java编程语言的集成开发环境,使用该软件编写代码时,可以设置调试器最近表达式的最大数量,从而有效避免调试器中表达式存储过多。......
2023-07-04 448 JAVA