CUHK MMLAB出品,该论文主要任务用小车的数据库来估计viewpoint的位置。Viewpoint对于三维重建来说,其重要性不言而喻,如果能够在缺失摄像头参数,深度等信息的情况下估计出viewpoint,则对于大量非规范的互联网图片等,就有可能再利用于三维重建。

  1. 首先,该文思路分两步走,先做物体检测,然后作viewpoint估计,实验与测试的数据为EPFL的小车数据库
  2. 算法pipeline由三个模块组成,首先使用HoG的图像patch通过cnn生成对应的mask,然后将mask与HoG图像patch同时作为输入生成masked图像,最后将masked图像作为输入,通过cnnv和cnnd来对目标进行预测 (detection label & viewpoint) 输出参数为
  3. CNNm找出判断特征的位置(图像patch中),CNNd检测物体,CNNv估计viewpoint
  4. 200200 图片crop成2323的patch,转HoG[0,1]
  5. CNNv和CNNd比CNNm多一层fc,用来输出qv,qd
  6. mask layer, 某个全链接层, element-wise minimum操作(HoG 与 mask),masked图片为物体检测,0的就是啥都没有,Ii就是对应物体,汽车轮子先验信息可以看出从侧面拍摄的,可以使用强制稀疏,大多数mi应该是接近0,但是接近1的时候是稀疏,同时考虑到car的判断特征要比背景容易,所以mi的位置接近1的时候应该都集中在物体上.
  7. 目标预测 CNNd有两个输出,分别为含有物体和不含有物体, Nvp输出是离散的概率估计
  8. viewpoint估计 离散viewpoint训练 结果并不理想 插值
  9. 前景和后景 (正负样本) 前景用长方形的box框出,做patch,长方形的box中心刚好为patch图像中心
  10. 试验结果 如论文 评估 mppe (Mean Precision of Pose Estimation) 和 ap (Average Precision VOC), Median Angular Error (MAE) , Mean Angular Error (MnAE)

未完待改