Java21虚拟线程：我的锁去哪儿了？

cnblogs 2024-10-20 08:13:00 阅读 86

0 前言

最近的文章中，我们详细介绍了当我们迁移到 Java 21 并将代际 ZGC 作为默认垃圾收集器时，我们的工作负载是如何受益的。虚拟线程是我们在这次迁移中兴奋采用的另一个特性。

对虚拟线程新手，它们被描述为“轻量级线程，大大减少编写、维护和观察高吞吐量并发应用程序的工作量。”威力来自在阻塞操作发生时，能够通过延续自动挂起和恢复，从而释放底层操作系统线程以供其他操作重用。在适当的上下文中利用虚拟线程可以解锁更高的性能。

本文讨论了在 Java 21 上部署虚拟线程的过程中遇到的一个特殊情况。

1 问题

工程师向性能工程和 JVM 生态系统团队提出了几份关于间歇性超时和挂起实例的独立报告。仔细检查后，我们注意到一组共同的特征和症状。在所有受影响的应用程序中，它们都在 Java 21 上运行，使用 SpringBoot 3 和嵌入式 Tomcat 在 REST 端点上提供流量。经历问题的实例甚至在这些实例上的 JVM 仍然运行时就停止了流量服务。一个清晰的、标志着这个问题开始的症状是 <code>closeWait 状态的套接字数量持续增加：

Tomcat服务器的吞吐量在某个时间点突然下降到几乎为0，表明服务器可能停止处理新的请求
同时，处于closeWait状态的套接字数量持续增加，这通常表示网络连接没有被正确关闭
这两个指标的变化是相关的，可能表明存在严重的网络或应用程序问题，导致连接无法正常关闭，并最终影响了服务器的处理能力

2 收集的诊断

停留在 <code>closeWait 状态的套接字表明远程对等方关闭了套接字，但本地实例从未关闭它，大概是因为应用程序未能这样做。这通常表明应用程序处于异常状态，这种情况下应用程序线程转储可能会揭示额外的洞察。

为解决这问题，我们首先利用警报系统捕获处于这种状态的实例。由于我们定期收集并持久化所有 JVM 工作负载的线程转储，我们通常可通过检查这些来自实例的线程转储来追溯行为。然而，惊讶发现我们所有的线程转储都显示一个完全空闲的 JVM，无任何明确的活动。

回顾最近变化，我们发现这些受影响的服务启用了虚拟线程，我们知道虚拟线程的调用栈不会出现在 jstack 生成的线程转储中。为了获得包含虚拟线程状态的更完整的线程转储，使用 “jcmd Thread.dump_to_file” 命令。作为最后的手段，我们还从实例中收集了一个堆转储。

3 分析

线程转储揭示了数千个“空白”虚拟线程：

#119821 "" virtual

#119820 "" virtual

#119823 "" virtual

#120847 "" virtual

#119822 "" virtual

...

这些是 VT（虚拟线程），其中创建了线程对象，但尚未开始运行，因此没有堆栈跟踪。事实上，空白 VT 的数量与 closeWait 状态的套接字数量大致相同。为了理解我们所看到的，我们首先需要了解 VT 的工作原理。

虚拟线程不是 1:1 映射到专用的 OS 级线程。相反，可将其视为计划到 fork-join 线程池中的任务。当虚拟线程进入阻塞调用时，如等待 Future，它会放弃它占据的 OS 线程，并简单地保留在内存中，直到它准备恢复。与此同时，OS 线程可以被重新分配以执行同一 fork-join 池中的其他 VT。这允许我们将许多 VT 多路复用到仅有的几个底层 OS 线程上。JVM 术语中，底层 OS 线程被称为“载体线程”，虚拟线程可“安装”在执行时和“卸载”在等待时。

虚拟线程的优秀深入描述可以在JEP 444。

在我们的环境下，对 Tomcat 使用了阻塞模型，实际上在请求的生命周期内保留了一个工作线程。通过启用虚拟线程，Tomcat 切换到虚拟执行。每个传入的请求都会创建一个新的虚拟线程，该线程简单地被计划在 Virtual Thread Executor 上作为一个任务。可见 Tomcat 在这里创建了 VirtualThreadExecutor。

将这些信息联系回我们的问题，症状对应于 Tomcat 不断为每个传入的请求创建一个新的 web 工作 VT，但是没有可用的 OS 线程将它们安装上去的状态。

4 Tomcat 为啥卡住了？

OS 线程咋了，它们在忙啥？正如这里描述，如虚拟线程在 synchronized 块或方法内执行阻塞操作，它将被固定到底层 OS 线程。这正是这里发生的情况。这是从卡住的实例获得的线程转储中的一个相关片段：

#119515 "" virtual

java.base/jdk.internal.misc.Unsafe.park(Native Method)

java.base/java.lang.VirtualThread.parkOnCarrierThread(VirtualThread.java:661)

java.base/java.lang.VirtualThread.park(VirtualThread.java:593)

java.base/java.lang.System$2.parkVirtualThread(System.java:2643)

java.base/jdk.internal.misc.VirtualThreads.park(VirtualThreads.java:54)

java.base/java.util.concurrent.locks.LockSupport.park(LockSupport.java:219)

java.base/java.util.concurrent.locks.AbstractQueuedSynchronizer.acquire(AbstractQueuedSynchronizer.java:754)

java.base/java.util.concurrent.locks.AbstractQueuedSynchronizer.acquire(AbstractQueuedSynchronizer.java:990)

java.base/java.util.concurrent.locks.ReentrantLock$Sync.lock(ReentrantLock.java:153)

java.base/java.util.concurrent.locks.ReentrantLock.lock(ReentrantLock.java:322)

zipkin2.reporter.internal.CountBoundedQueue.offer(CountBoundedQueue.java:54)

zipkin2.reporter.internal.AsyncReporter$BoundedAsyncReporter.report(AsyncReporter.java:230)

zipkin2.reporter.brave.AsyncZipkinSpanHandler.end(AsyncZipkinSpanHandler.java:214)

brave.internal.handler.NoopAwareSpanHandler$CompositeSpanHandler.end(NoopAwareSpanHandler.java:98)

brave.internal.handler.NoopAwareSpanHandler.end(NoopAwareSpanHandler.java:48)

brave.internal.recorder.PendingSpans.finish(PendingSpans.java:116)

brave.RealSpan.finish(RealSpan.java:134)

brave.RealSpan.finish(RealSpan.java:129)

io.micrometer.tracing.brave.bridge.BraveSpan.end(BraveSpan.java:117)

io.micrometer.tracing.annotation.AbstractMethodInvocationProcessor.after(AbstractMethodInvocationProcessor.java:67)

io.micrometer.tracing.annotation.ImperativeMethodInvocationProcessor.proceedUnderSynchronousSpan(ImperativeMethodInvocationProcessor.java:98)

io.micrometer.tracing.annotation.ImperativeMethodInvocationProcessor.process(ImperativeMethodInvocationProcessor.java:73)

io.micrometer.tracing.annotation.SpanAspect.newSpanMethod(SpanAspect.java:59)

java.base/jdk.internal.reflect.DirectMethodHandleAccessor.invoke(DirectMethodHandleAccessor.java:103)

java.base/java.lang.reflect.Method.invoke(Method.java:580)

org.springframework.aop.aspectj.AbstractAspectJAdvice.invokeAdviceMethodWithGivenArgs(AbstractAspectJAdvice.java:637)

...

这堆栈跟踪中，进入了 brave.RealSpan.finish(RealSpan.java:134) 的同步。这个虚拟线程实际上被固定了 - 它被安装在一个实际的 OS 线程上，即使在等待获取可重入锁时也是如此。有 3 个 VT 在这种确切状态，另一个 VT 被识别为 “<redacted> @DefaultExecutor - 46542”，它也遵循相同的代码路径。这 4 个虚拟线程在等待获取锁时被固定。由于应用程序部署在具有 4 个 vCPU 的实例上，支撑 VT 执行的 fork-join 池也包含 4 个 OS 线程。现在我们已经用尽了它们，没有其他虚拟线程可以取得任何进展。这解释了：

为啥 Tomcat 停止处理请求
为啥 closeWait 态的套接字数量不断攀升

事实上，Tomcat 在套接字上接受连接，创建请求以及与之相关的虚拟线程，并将此请求/线程传递给执行器进行处理。然而，新创建的 VT 无法被调度，因为 fork-join 池中的所有 OS 线程都被固定并且从未释放。因此，这些新创建的 VT 被困在队列中，同时仍然持有套接字。

5 谁拥有锁？

现在我们知道 VT 正在等待获取锁，下一个问题是谁拥有锁？回答这个问题是理解最初触发这个条件的关键。通常，线程转储通过 “- locked <0x…> (at …)” 或 “Locked ownable synchronizers” 指示谁拥有锁，但我们的线程转储中没有出现这些。事实上，jcmd 生成的线程转储中没有包含锁定/停车/等待信息。这是 Java 21 的一个限制，并将在未来版本中得到解决。仔细梳理线程转储，我们发现总共有 6 个线程竞争同一个 ReentrantLock 和相关的 Condition。这六个线程中的四个在前一节中详细说明。这是另一个线程：

#119516 "" virtual

java.base/java.lang.VirtualThread.park(VirtualThread.java:582)