我一直在看JDK中ThreadLocal的实现,出于好奇,我发现这一点:
- /**
- * Increment i modulo len.
- */
- private static int nextIndex(int i,int len) {
- return ((i + 1 < len) ? i + 1 : 0);
- }
看起来很明显,这可以用简单的回报(i 1)%len实现,但我认为这些人知道他们的东西.任何想法为什么他们这样做?
此代码高度针对性能,具有用于持有线程本地映射的自定义映射,弱引用以帮助GC变得聪明等等,因此我猜这是一个性能问题. Java中的模数慢吗?
解决方法
在本例中出于性能原因避免了%.
即使在cpu架构级别,div / rem操作也较慢;不仅在Java中例如,Haswell上的idiv指令的最小延迟大约是10个周期,但是只有1个循环.
让我们用JMH进行基准测试.
- import org.openjdk.jmh.annotations.*;
- @State(Scope.Benchmark)
- public class Modulo {
- @Param("16")
- int len;
- int i;
- @Benchmark
- public int baseline() {
- return i;
- }
- @Benchmark
- public int conditional() {
- return i = (i + 1 < len) ? i + 1 : 0;
- }
- @Benchmark
- public int mask() {
- return i = (i + 1) & (len - 1);
- }
- @Benchmark
- public int mod() {
- return i = (i + 1) % len;
- }
- }
结果:
- Benchmark (len) Mode Cnt score Error Units
- Modulo.baseline 16 avgt 10 2,951 ± 0,038 ns/op
- Modulo.conditional 16 avgt 10 3,517 ± 0,051 ns/op
- Modulo.mask 16 avgt 10 3,765 ± 0,016 ns/op
- Modulo.mod 16 avgt 10 9,125 ± 0,023 ns/op
你可以看到,使用%比条件表达式慢〜2.6倍. JIT无法在讨论的ThreadLocal代码中自动优化,因为除数(table.length)是可变的.