HeYStRanGeR
article thumbnail

(23.05.02)

Depth Estimation 논문 정리하기 2탄

 

- 논문 제목: Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture (ICCV 2015)

- https://arxiv.org/pdf/1411.4734v4.pdf


(https://arxiv.org/pdf/2003.06620.pdf survey에서 설명하는 내용)

single image로부터 depth estimation, surface normal estimation, semantic label prediction과 같은 task를 다룰 수 있는 일반적인 multi-scale framework를 제안한 논문이다.

 


Summary

전체적인 방법론은 Depth Map Prediction from a Single Image using a Multi-Scale Deep Network (NeurIPS 2014)(https://hey-stranger.tistory.com/306) 이것과 거의 동일하다. 

convolutional layer가 더 추가되었다는 점, scale 3가 추가되었다는 점, multichannel map을 통과한다는 점이 추가되었을 뿐이다.

Depth estimation 을 포함하여 3가지 task에 적용가능하다는 점도 추가되었다.

공식 코드는 없는 것 같다..

 

 

Abstract

본 논문에서는 single multi-scale convolutional netwrok architecture를 사용하여 세가지 computer vision task를 다룬다.

1) depth prediction, 2) surface normal estimation, 3) semantic labeling

작은 modifications를 통해서 input image에서 output map으로 regressing함으로써 각 task에 자연스럽게 적용시킬 수 있다.

본 논문에서 제시하는 방법은 sequence of scales를 사용하여 predictions를 점진적으로 정제하고, superpixels나 low-level segmentation 없이 image details를 포착한다.

그리하여, 3가지 task에 대해서 sota를 달성했다.

 

 

 

Model Architecture

 

본 논문에서 제시하는 모델은 multi-scale deep network이다.

우선, 전체 image area에 대해서 coarse global output을 예측한다. 그리고, finer-scale local networks를 사용해서 이를 refine한다. 해당 아키텍쳐는 "Depth Map Prediction from a Single Image using a Multi-Scale Deep Network (NeurIPS 2014)" 여기에서 제안된 것에 개선점을 붙인 것이다. 

- 1) make model deeper: convolutional layer를 더 붙였다

- 2) add third scale at higher resolution

- 3) pass multichannel feature maps

 

 

scale 1: Full-Image View

- 네트워크의 first scale은 coarse를 예측한다. scale1에서 AlextNet와 VGGNet 두가지를 사용하여 학습하는데, task에 따라서 성능이 다르게 나타났다.

 

scale 2: Predictions

- 두번째 scale의 역할은 mid-level resolution에서 predictions를 만드는 것이다. 

 

scale 3: Higher Resolution

- 마지막 scale에서는 predictions를 higher resolution으로 refine한다. scale2의 ouuput을 concatenate 한다. 최종적인 output resolution은 network input의 절반이다.

 

 

 

Loss function

(task 3가지 중에서 depth estimation만 정리했다.)

predicted ground-truth  log depth maps를 비교하는 loss fucntion을 사용한다.

 

 

 

Experiments

 

 

 

 

 

728x90
profile

HeYStRanGeR

@HeYStRanGeR

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!