HeYStRanGeR
article thumbnail

(23.04.30)

 

Monocular Depth Estimation Based On Deep Learning: An Overview 

https://arxiv.org/pdf/2003.06620.pdf

이번에는 dataset 정리


Depth Estimation의 Dataset

 

1. KITTI

- 가장 크며, computer vision task들의 공통적으로 쓰이는 dataset이다. optical flow, visual odometry, depth, object detection, semantiv segmentation, tracking 등에 쓰인다. 

- unsupervised and semi-supervised monocolar depth estimation의 commonest benchmark이고, primary training dataset이다.

- stereo image pairs (LIDAR로 ground truth)

 

- 해상도: 1224 x 368

- city, residential, road 카테고리가 있고, real images이다. 

- 56개의 scenes 중 28개는 training, 28개는 testing 용도이다.

- 11 odometry(주행거리 측정) sequences에 대한 ground truth를 제공하여 deep learning-based visual odometry 알고리즘을 evaluate하는데 쓰인다.

- https://paperswithcode.com/dataset/kitti

 

 

2. NYU Depth

- indoor environments 에 포커스된 데이터셋으로 464 indoor scenes가 있다.

- supervised modocular depth estimation의 common benchmark이고, primary traning dataset

- monocular video sequences of scenes (RGB-D로 ground truth)

- 해상도: 640 x 480

- 464 scenes 중 249 scenes는 training, 215 scenes는 testing 용도이다.

- RGB camera와 depth camera가 1대1 대응이 아니라서 실험을 돌릴때는 depth value가 없는 Pixel은 maksed off된다.

 

 

3. Cityscapes

- semantic segmentation tasks에 포커스된 데이터셋으로, 5000장 (fine annotations), 20000장 (coarse annotations)

 

- depth에 대한 ground truth가 없다. -> unsupervised depth estimation methods의 training에만 쓰인다.

- stereo video sequences (몇달간의 50개의 도시에서 수집)

- 33,973 stereo image pairs

- 해상도: 1024 x 2048

- https://paperswithcode.com/dataset/cityscapes

 

 

4. Make3D

- monocular RGB와 depth images 포함

- supervised methods 의 training 과정에 쓰임

- unsupervised 알고리즘을 evaluate하는 데에 쓰임

- monocular sequences 나 stereo images pairs가 없기 때문에 semi-supervised와 unsupervised learning methods의 training 과정에는 안쓰인다.

- https://paperswithcode.com/dataset/make3d

 

 

 

 

 

 

 

 

 

728x90
profile

HeYStRanGeR

@HeYStRanGeR

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!