(2023.03.04)
semantic segmentation 논문 리뷰 2탄
- 논문 제목: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (2015)
- https://arxiv.org/pdf/1511.00561v3.pdf
Model Architecture
SegNet은 encoder-decoder 구조이다.
- encoder는 vgg16의 13 conv layer를 가져왔다. (fully connected layer는 resolution을 낮추고 parameter가 늘어나기 때문에 없앴다.)
- 이와 대응하는 decoder도 13 layer로 구성되어있다.
- 마지막 decoder의 output은 multi-class softmax classifier를 거쳐 각 pixel의 class일 확률을 통해 최종적인 segmentation map이 나온다.
SegNet에서 upsampling의 방법은 아래의 그림과 같다.
encoder에서 2x2 max pooling할 때 max pooling indicies를 저장해두고, decoder에서 upsampling할 때 이를 받아 해당 위치에 upsampling해주는 방식이다.
저자는 SegNet을 DeconvNet & UNet과 비교했다.
- upsampling 방법에서 3가지 모델 모두 다르다
- SegNet은 parameter가 더 적은 모델로 더 적은 메모리를 사용한다
이 두가지가 비교의 핵심 내용인 것 같다.
Experiment