对象检测模型可以适应不同的视点通道吗？

2024-05-20 • 问答

我有同一场景的深度和热图像，但视角却明显不同。

我用来计算旋转/平移矩阵，以便将两个图像堆叠成（300，300，2）阵列。 但是像SSD或Faster-R-cnn这样的对象检测模型可以隐式学习此矩阵吗？

我的标签框在热图像上完成。

即使深度像素不在同一位置，也会使用与深度图像中相同对象相对应的像素吗？

以下是SSD型号的图示：

我只淹没了框坐标预测（最佳先验位置与真实对象位置之间的差值），而没有相应的对象类别预测（5 x 5 x 4xnb_classes）

我的第一个想法是，如果深度图像中的对象不在标签框内（在热图像上完成），网络将检测到2个不同的对象，并因预测深度图像上的一个而受到惩罚（因为此处没有标签框），因此网络将学会忽略深度通道。

我对吗？还是网络有一种方法可以处理此pb并学习如何在深度通道中使用像素？（其他对象检测模型可以处理此pb吗？）

我认为直觉上的核心问题是，卷积会保持对象在整个网络中的定位，因此我们无法将通道1（x，y）中的像素链接到通道2（x + delta，y + delta）中的像素）

谢谢您的时间。