对象检测模型可以适应不同的视点通道吗?

我有同一场景的深度和热图像,但视角却明显不同。

我用来计算旋转/平移矩阵,以便将两个图像堆叠成(300,300,2)阵列。 但是像SSD或Faster-R-cnn这样的对象检测模型可以隐式学习此矩阵吗?

我的标签框在热图像上完成

即使深度像素不在同一位置,也会使用与深度图像中相同对象相对应的像素吗?

以下是SSD型号的图示:

对象检测模型可以适应不同的视点通道吗?

我只淹没了框坐标预测(最佳先验位置与真实对象位置之间的差值),而没有相应的对象类别预测(5 x 5 x 4xnb_classes)

我的第一个想法是,如果深度图像中的对象不在标签框内(在热图像上完成),网络将检测到2个不同的对象,并因预测深度图像上的一个而受到惩罚(因为此处没有标签框),因此网络将学会忽略深度通道。

我对吗?还是网络有一种方法可以处理此pb并学习如何在深度通道中使用像素? (其他对象检测模型可以处理此pb吗?)

我认为直觉上的核心问题是,卷积会保持对象在整个网络中的定位,因此我们无法将通道1(x,y)中的像素链接到通道2(x + delta,y + delta)中的像素)

谢谢您的时间。

cj1987fdsgsg 回答:对象检测模型可以适应不同的视点通道吗?

在通道中同时考虑两个输入时,这可能会起作用,但是要获得更好的结果,最好在将其输入任何模型之前进行校正。该模型将不进行任何校正,但会应用统计方法。

本文链接:https://www.f2er.com/3107654.html

大家都在问