探索 Java 网络爬虫：Jsoup、HtmlUnit 与 WebMagic 的比较分析

=蜗牛= 2024-07-06 12:03:02 阅读 77

1、引言

在当今信息爆炸的时代，网络数据的获取和处理变得至关重要。对于 Java 开发者而言，掌握高效的网页抓取技术是提升数据处理能力的关键。本文将深入探讨三款广受欢迎的 Java 网页抓取工具：Jsoup、HtmlUnit 和 WebMagic，分析它们的功能特点、优势以及适用场景，以助开发者选择最适合自己项目需求的工具。

2、Jsoup

2.1、简介

Jsoup 是一款 Java 编写的开源 HTML 解析器，它提供了一套丰富的 API，用于解析、操作和清理 HTML 文档。Jsoup 能够从网页中提取数据，并且广泛应用于网络爬虫、数据挖掘和自动化测试等领域。

Jsoup 官方网站

2.2、特性

轻量级：Jsoup 作为一个轻量级的库，不需要额外的服务器或复杂的配置即可使用。解析能力：能够从 HTML 文件、字符串或 URL 中解析文档，并提取数据。强大的选择器：支持 CSS 选择器和正则表达式，使得数据提取更加灵活和高效。易于使用：API 设计直观，易于上手，适合初学者和有经验的开发者。处理异常：能够处理 HTML 文档中的异常情况，如不完整的标签等。

2.3、优点

易学易用：Jsoup 的 API 设计简单直观，学习成本低。灵活性：支持多种数据提取方式，适应不同的数据抽取需求。社区支持：作为一个成熟的开源项目，Jsoup 拥有活跃的社区，方便获取帮助和资源。

2.4、缺点

不支持 JavaScript：无法直接处理 JavaScript 动态加载的内容。性能限制：对于大型或复杂的 HTML 文档，解析速度可能不如其他专业的解析工具。安全风险：如果不正确使用，可能会引入跨站脚本攻击（XSS）等安全问题。

2.5、使用场景

静态网页爬取：适用于从不需要执行 JavaScript 的静态网页中提取信息。数据提取：从网页中提取链接、图片、文本等数据。自动化测试：在 Web 应用程序的自动化测试中，用于模拟用户操作和验证页面内容。内容清洗：清理 HTML 文档，移除不需要的元素或属性，确保输出的 HTML 是安全和干净的。

2.6、注意事项

JavaScript 渲染：Jsoup 不执行 JavaScript，因此无法直接从依赖 JavaScript 动态生成的内容中提取数据。编码问题：在处理非标准编码的 HTML 文档时，可能需要手动设置字符编码。异常处理：虽然 Jsoup 能够处理一些异常情况，但对于某些复杂的 HTML 结构，可能需要额外的处理逻辑。

2.7、示例代码

如果你使用的是 Maven，可以在 pom.xml 文件中添加以下依赖

<dependency>

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

<version>1.17.2</version> 

</dependency>

以下是一个简单的 Jsoup 示例代码，演示了如何抓取百度首页上的热门搜索新闻：

public class JsoupExample {

public static void main(String[] args) {

// 目标网页 URL

String url = "https://www.baidu.com";

try {

// 连接到网页并获取文档对象

Document doc = Jsoup.connect(url).get();

// 获取百度首页热搜

Elements hotSearchList = doc.selectXpath("//*[@id=\"hotsearch-content-wrapper\"]/li");

System.out.println("今日百度热搜：");

// 遍历所有热搜新闻

for (Element hotSearch : hotSearchList) {

Elements newsMetaList = hotSearch.selectXpath(".//span");

for (Element newsMeta : newsMetaList) {

System.out.print(newsMeta.text() + " ");

}

System.out.print("\n");

}

} catch (Exception e) {

e.printStackTrace();

}

运行结果截图如下：

在这里插入图片描述

Jsoup 主要用于静态网页的内容抓取，对于使用 Vue.js 等现代 JavaScript 框架构建的动态网站，其直接获取页面内容的能力受限。由于 Vue.js 等框架通过 JavaScript 动态生成页面内容，Jsoup 无法执行相应的脚本，因此可能无法获取到完整的、动态渲染的数据。

因此，使用 Jsoup 爬取这类网站时，通常只能获取到初始的、不包含动态数据的HTML结构。结果如下：

<html>

<head>

<meta charset="utf-8">code>

</head>

<body>

<div id="app"></div>code>

</body>

</html>

`3、HtmlUnit`

 3.1、简介
 HtmlUnit 是一个用 Java 编写的无界面浏览器，它模拟 HTML 文档并提供了一系列 API，允许开发者以编程方式与网页进行交互。这个工具可以用于自动化测试、网络爬虫以及自动化网页交互等场景。HtmlUnit 支持 JavaScript（通过 Mozilla Rhino 引擎），并且能够处理 AJAX 功能，使得它能够与现代的动态网页进行交互。
 
HtmlUnit 官方网站
 
HtmlUnit GitHub
 
3.2、特性
 无界面：HtmlUnit 不需要图形用户界面，可以在服务器或后台环境中运行。支持 JavaScript：内置 Rhino JavaScript 引擎，可以执行 JavaScript 代码，处理 AJAX 请求。模拟浏览器行为：可以模拟用户在浏览器中的操作，如点击、表单提交等。多浏览器模拟：可以模拟多种浏览器，如 Chrome、Firefox、Internet Explorer 等。丰富的 API：提供了丰富的 API 来操作网页元素，如获取、设置属性、执行事件等。 
3.3、优点
 易用性：HtmlUnit 的 API 设计简单直观，易于上手和使用。跨平台：作为无界面浏览器，HtmlUnit 可以在任何支持Java的平台上运行。社区支持：作为一个成熟的开源项目，HtmlUnit 拥有活跃的社区，可以方便地获取帮助和资源。 
3.4、缺点
 性能：由于 HtmlUnit 需要解释 JavaScript，对于复杂的 JavaScript 操作，性能可能不如真实浏览器。兼容性：虽然支持多种浏览器特性，但仍有可能遇到一些网页在 HtmlUnit 中无法正确渲染或表现的问题。更新维护：随着 Web 技术的发展，HtmlUnit 需要不断更新以支持新的Web标准和特性，这可能导致版本间的不兼容问题。 
3.5、使用场景
 自动化测试：用于 Web 应用程序的功能测试，模拟用户操作验证应用程序的行为。网络爬虫：抓取网站数据，提取信息，适用于数据分析、数据挖掘等。Web 自动化：自动化执行 Web 相关的任务，如登录、下载文件、填写并提交表单等。 
3.6、注意事项
 CSS 和 JavaScript 支持：HtmlUnit 对 CSS 和 JavaScript 的支持可能不如真实浏览器完美，有时候需要禁用 CSS 和 JavaScript 来避免潜在的问题。异常处理：在处理 JavaScript 错误时，可以通过设置来防止测试因脚本错误而失败。版本兼容性：使用 HtmlUnit 时，需要注意库的版本与依赖的其他库的兼容性，以及与目标网站的 JavaScript 和 CSS 的兼容性。 
3.7、示例代码
 如果你使用的是 Maven，可以在 pom.xml 文件中添加以下依赖
 
<!-- https://mvnrepository.com/artifact/org.htmlunit/htmlunit -->
<dependency>
 <groupId>org.htmlunit</groupId>
 <artifactId>htmlunit</artifactId>
 <version>4.0.0</version> <!-- 请使用最新版本 -->
</dependency>
 
以下是一个简单的 HtmlUnit 示例代码，演示了如何抓取百度首页上的热门搜索新闻：
 
public class HtmlUnitExample { 
 public static void main(String[] args) { 
 // 目标网页 URL
 String url = "https://www.baidu.com";
 WebClient webClient = getWebClient();
 try { 
 // 打开网页
 HtmlPage page = webClient.getPage(url);
 // 获取网页标题
 String title = page.getTitleText();
 System.out.println("网页标题: " + title);
 // 获取百度首页热搜
 List<DomElement> hotSearchList = page.getByXPath("//*[@id=\"hotsearch-content-wrapper\"]/li");
 System.out.println("今日百度热搜：");
 // 遍历所有热搜新闻
 for (DomElement hotSearch : hotSearchList){ 
 List<DomElement> newsMetaList = hotSearch.getByXPath(".//span");
 for (DomElement newsMeta : newsMetaList) { 
 System.out.print(newsMeta.asNormalizedText() + " ");
 }
 System.out.print("\n");
 }
 } catch (Exception e) { 
 e.printStackTrace();
 } finally { 
 // 关闭WebClient，释放资源
 webClient.close();
 }
 }
 /**
 * <h2>获取一个 Web 模拟浏览器客户端</h2>
 */
 public static WebClient getWebClient(){ 
 // 浏览器设置
 WebClient webClient = new WebClient(BrowserVersion.CHROME);
 // ajax
 webClient.setAjaxController(new NicelyResynchronizingAjaxController());
 // 支持js
 webClient.getOptions().setJavaScriptEnabled(true);
 // 忽略js错误
 webClient.getOptions().setThrowExceptionOnScriptError(false);
 // 忽略css错误
 webClient.setCssErrorHandler(new SilentCssErrorHandler());
 // 不执行CSS渲染
 webClient.getOptions().setCssEnabled(false);
 // 超时时间
 webClient.getOptions().setTimeout(3000);
 // 允许重定向
 webClient.getOptions().setRedirectEnabled(true);
 // 允许cookie
 webClient.getCookieManager().setCookiesEnabled(true);
 return webClient;
 }
}
 
运行结果截图如下：
 
 
4、WebMagic
 4.1、简介
 WebMagic 是一个简单灵活的 Java 爬虫框架。基于 WebMagic，你可以快速开发出一个高效、易维护的爬虫。
 
WebMagic 官方网站
 
WebMagic 总体架构图如下：
 
 
4.2、特性
 简洁的 API：WebMagic 提供了简单直观的 API，使得开发者可以快速编写爬虫程序。强大的抽取能力：支持多种数据抽取方式，包括 XPath、正则表达式等，方便从网页中提取所需数据。多线程处理：WebMagic 内部采用多线程进行页面抓取，提高了爬取效率。自动重试机制：在请求失败时，WebMagic 能够自动重试，增强了爬虫的稳定性。灵活的数据处理：允许开发者自定义数据处理逻辑，可以将数据存储到数据库、文件或进行其他处理。Site 对象：封装了目标网站的一些基本信息，如编码、重试次数、抓取间隔等，方便配置和调整。 
4.3、优点
 易学易用：WebMagic 的 API 设计简单，学习成本低，适合初学者快速上手。高效稳定：内置多线程处理和自动重试机制，提高了爬虫的效率和稳定性。灵活性：支持自定义数据处理，可以轻松应对不同的数据存储和处理需求。 
4.4、缺点
 社区支持：相比于其他流行的爬虫框架，WebMagic 的社区可能相对较小，资源和支持可能有限。更新维护：Web 技术不断发展，WebMagic 需要不断更新以适应新的网页结构和反爬策略，可能存在一定的维护成本。JavaScript 渲染：WebMagic 在处理 JavaScript 动态渲染的页面时可能存在局限，对于复杂的 JavaScript 操作可能需要额外的处理。 
4.5、使用场景
 数据抓取：适用于抓取网站信息，如新闻、博客、商品数据等。网站监控：可以用来监控目标网站的更新，及时获取最新内容。数据分析：抓取的数据可以直接用于数据分析、市场研究等领域。 
4.6、注意事项
 遵守 robots.txt：在使用 WebMagic 进行爬虫开发时，应遵守目标网站的 robots.txt 文件规定，尊重网站的爬虫策略。合理设置抓取间隔：为了避免对目标网站造成过大压力，应设置合理的抓取间隔和重试次数。异常处理：网络请求可能会失败，需要在代码中进行适当的异常处理。 
4.7、示例代码
 如果你使用的是 Maven，可以在 pom.xml 文件中添加以下依赖
 <code>
<!-- https://mvnrepository.com/artifact/us.codecraft/webmagic-core -->
<!-- WebMagic是一个简单灵活的爬虫框架，其核心部分（webmagic-core）是一个精简的、模块化的爬虫实现。 -->
<dependency>
 <groupId>us.codecraft</groupId>
 <artifactId>webmagic-core</artifactId>
 <version>0.9.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/us.codecraft/webmagic-extension -->
<!-- WebMagic的扩展模块（webmagic-extension）为使用者提供了更方便的编写爬虫的工具，包括注解格式定义爬虫、JSON、分布式等支持。 -->
<dependency>
 <groupId>us.codecraft</groupId>
 <artifactId>webmagic-extension</artifactId>
 <version>0.9.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/us.codecraft/webmagic-selenium -->
<!-- WebMagic 是一个基于 Java 的开源网络爬虫框架，而 Selenium 是一个用于自动化 Web 浏览器的工具。 -->
<dependency>
 <groupId>us.codecraft</groupId>
 <artifactId>webmagic-selenium</artifactId>
 <version>0.9.0</version>
</dependency>
 
以下是一个简单的 WebMagic 示例代码，演示了如何抓取百度首页上的热门搜索新闻：
 
1、自定义下载器
 
WebMagic-Selenium 是 WebMagic 爬虫框架的一个扩展，它结合了 WebMagic 的爬虫能力和 Selenium 的浏览器自动化功能。这种结合使得 WebMagic-Selenium 能够处理那些需要执行 JavaScript 或模拟用户交互才能获取完整信息的动态网页。
 
通过使用 WebMagic-Selenium，开发者可以利用 WebMagic 的简洁 API 来定义爬虫的抓取逻辑，同时使用 Selenium 来处理那些需要复杂交互的网页。例如，可以模拟用户的登录过程、处理弹出窗口、执行复杂的表单提交等操作。
 
WebMagic 默认使用了 Apache HttpClient 作为下载工具。
 
/**
 * <h1>自定义下载器</h1>
 * Downloader 负责从互联网上下载页面，以便后续处理。
 * WebMagic 默认使用了Apache HttpClient作为下载工具。
 * */
public class WNDownloader implements Downloader { 
 // 声明驱动
 private RemoteWebDriver driver;
 @Override
 public Page download(Request request, Task task) { 
 // 第一个参数是使用哪种浏览器驱动，第二个参数是浏览器驱动的地址
 System.setProperty("webdriver.chrome.driver",
 "/Users/yaoshuaizhou/Downloads/chromedriver-mac-arm64/chromedriver");
 // 创建浏览器参数对象
 ChromeOptions chromeOptions = new ChromeOptions();
 // 设置为 无界面浏览器 模式,若是不想看到浏览器打开，就可以配置此项
 // chromeOptions.addArguments("--headless");
 chromeOptions.addArguments("--window-size=1440,1080"); // 设置浏览器窗口打开大小
 this.driver = new ChromeDriver(chromeOptions); // 创建驱动
 driver.get(request.getUrl()); // 第一次打开url，跳转到登录页
 try { 
 Thread.sleep(3000); // 等待打开浏览器
 // 获取从process返回的site携带的cookies，填充后第二次打开url
 Site site = task.getSite();
 if (site.getCookies() != null) { 
// for (Map.Entry cookieEntry : site.getCookies()
//
// .entrySet()) { 
//
// Cookie cookie = new Cookie(cookieEntry.getKey(),
//
// cookieEntry.getValue());
//
// driver.manage().addCookie(cookie);
//
// }
 // 添加对应domain的cookie后，第二次打开url
 driver.get(request.getUrl());
 }
 Thread.sleep(2000);
 // 需要滚动到页面的底部,获取完整的数据
 driver.executeScript("window.scrollTo(0, document.body.scrollHeight - 1000)");
 Thread.sleep(2000); // 等待滚动完成
 // 获取页面，打包成Page对象，传给PageProcessor 实现类
 Page page = createPage(request.getUrl(), driver.getPageSource());
 driver.close(); // 看需要是否关闭浏览器
 return page;
 } catch (InterruptedException e) { 
 throw new RuntimeException(e);
 }
 }
 @Override
 public void setThread(int i) { 
 }
 //构建page返回对象
 private Page createPage(String url, String content) { 
 Page page = new Page();
 page.setRawText(content);
 page.setUrl(new PlainText(url));
 page.setRequest(new Request(url));
 page.setDownloadSuccess(true);
 return page;
 }
}
 
2、自定义页面解析器
 
/**
 * <h1>自定义页面解析器</h1>
 * PageProcessor 负责解析页面，抽取有用信息，以及发现新的链接。
 * WebMagic 使用 Jsoup 作为 HTML 解析工具，并基于其开发了解析 XPath 的工具 Xsoup。
 * */
public class WNPageProcessor implements PageProcessor { 
 private Site site = Site.me()
 .setCharset("UTF-8") // 设置编码
 .setSleepTime(1) // 抓取间隔时间
 .setTimeOut(1000 * 10) // 超时时间
 .setRetrySleepTime(3000) // 重试时间
 .setRetryTimes(3)
 .addHeader("CSDN", "woniu")
 .addHeader("Content-Type", "application/json;charset=UTF-8");
 @Override
 public void process(Page page) { 
 Html html = page.getHtml();
 List<Selectable> hotSearchList = html.xpath("//*[@id=\"hotsearch-content-wrapper\"]/li").nodes();
 System.out.println("今日百度热搜：");
 // 遍历所有热搜新闻
 for (Selectable hotSearch : hotSearchList){ 
 List<Selectable> newsMetaList = hotSearch.xpath("//span/text()").nodes();
 for (Selectable newsMeta : newsMetaList) { 
 System.out.print(newsMeta.get() + " ");
 }
 System.out.print("\n");
 }
 // 存储，可以传递到 WNPipeline
 page.putField("woniu", "我是CSDN");
 }
 @Override
 public Site getSite() { 
 return site;
 }
}
 
3、自定义结果处理器
 
/**
 * <h1>自定义结果处理器</h1>
 * Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。
 * WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。
 * Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。
 * 对于一类需求一般只需编写一个Pipeline。
 * */
public class WNPipeline implements Pipeline { 
 @Override
 public void process(ResultItems resultItems, Task task) { 
 // 获取封装好的数据
 String woniu = resultItems.get("woniu");
 System.out.println("WNPageProcessor 传递结果：" + woniu);
 }
}
 
4、单元测试
 
public class WebMagicExample { 
 public static void main(String[] args) { 
 // 目标网页 URL
 String url = "https://www.baidu.com";
 Spider.create(new WNPageProcessor()) // 创建爬虫，并指定PageProcessor
 .addUrl(url) // 添加需要爬取的URL
 .setDownloader(new WNDownloader()) // 设置 Downloader，一个 Spider 只能有个一个 Downloader
 .addPipeline(new WNPipeline()) // 添加一个 Pipeline，一个 Spider 可以有多个 Pipeline
 .thread(5) // 开启5个线程抓取
 .start(); // 开始爬取，设置最多在10分钟内停止
 }
}
 
Selenium 可以配置为两种模式运行：有界面（headed）和无界面（headless）。
 
在默认情况下，Selenium WebDriver 会启动一个完整的浏览器窗口，用户可以直观地看到浏览器中的操作和页面变化，这对于测试和调试非常有用。如下图：
 
 
要启动无界面模式，需要在 Selenium 的浏览器配置中添加相应的参数。例如，在 Java 中使用ChromeDriver 时，可以通过以下代码启动无界面模式：

<code>// 创建浏览器参数对象

ChromeOptions chromeOptions = new ChromeOptions();

// 设置为无界面浏览器模式，若是不想看到浏览器打开，就可以配置此项

chromeOptions.addArguments("--headless");

这段代码会启动一个没有图形界面的 Chrome 浏览器，并打开指定的网址。在无界面模式下，所有的 Selenium 操作都会正常执行，但不会有任何视觉反馈。

运行结果截图如下：

在这里插入图片描述

5、知识库

5.1、Chrome 浏览器查找 html 元素中的 XPath 路径

在谷歌 Chrome 浏览器中查找 HTML 元素的 XPath 路径，可以通过以下步骤进行：

5.1.1、打开开发者工具

使用快捷键 Ctrl + Shift + I 或 F12 打开 Chrome 的开发者工具，或者在页面上右键点击，选择“检查”来打开。

5.1.2、切换到Elements面板

在开发者工具中，默认选中的是 “元素（Elements）” 面板，这里可以查看页面的 DOM 结构。

5.1.3、选择目标元素

使用鼠标点击页面上的目标元素，或者使用开发者工具中的选择器工具（点击左上角的小箭头图标后，鼠标变为一个箭头状）来选择页面上的元素。

5.1.4、复制 XPath 路径

在元素（Elements）面板中，选中目标元素后，右键点击该元素的代码行，在弹出的菜单中选择“复制” > “复制 XPath”来复制 XPath 路径。如果想要复制完整的 XPath 路径（从根节点开始），可以选择“复制” > “复制完整 XPath”。

在这里插入图片描述

5.1.5、验证 XPath 路径

在开发者工具的控制台（Console）面板中，可以使用 XPath 表达式来验证路径是否正确。例如，输入$x(‘//XPath 表达式’)并回车，如果路径正确，控制台会输出匹配的元素数量

示例：$x(‘//*[@id=“hotsearch-content-wrapper”]’)，如下图：

在这里插入图片描述

5.2、ChromeDriver 下载

ChromeDriver 下载地址，请根据您使用的操作系统下载相应的 ChromeDriver 版本。

在这里插入图片描述

6、总结

Jsoup 主要用于抓取和解析静态 HTML 页面，它不执行 JavaScript，因此对于依赖 JavaScript动态加载内容的网站可能无法获取完整的页面信息。而 HtmlUnit 和 WebMagic 则具备处理动态网页的能力。

HtmlUnit 是一个无头浏览器，它可以执行 JavaScript 代码，从而允许用户与动态内容进行交互，获取通过 JavaScript 动态加载的数据。这使得 HtmlUnit 非常适合抓取那些需要执行脚本才能显示完整内容的网站。

WebMagic 作为一个爬虫框架，它不仅支持静态页面的抓取，也能够通过内置的或自定义的处理器来处理动态内容。WebMagic 的多线程和分布式特性使其在大规模数据抓取方面表现出色，尤其适合于处理复杂的动态网站。

因此，在选择工具时，如果目标网站主要是静态内容，Jsoup 可能是一个简单且高效的选择。而如果网站包含大量的动态内容，HtmlUnit 和 WebMagic 将更能满足需求。

综上所述，Jsoup、HtmlUnit 和 WebMagic 各有千秋，它们分别适用于不同的网页抓取场景。通过合理选择和应用这些工具，开发者可以大幅提升工作效率，优化项目质量，从而在网络爬虫的开发之旅中取得成功。无论您的项目需求如何，这三款工具都能为您提供强大的支持，助您轻松应对网络数据抓取的挑战。

本文教程到此结束，祝愿小伙伴们在编程之旅中能够愉快地探索、学习、成长！

上一篇：前端错误监控与日志收集实践

下一篇：基于Java的教务信息管理系统（前端 + 后端）

本文标签

探索 Java 网络爬虫：Jsoup、HtmlUnit 与 WebMagic 的比较分析

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。