[TransUNet] Transformers Make Strong Encoders for Medical Image Segmentation

(23.01.25)

medical ai 논문 리뷰 3탄

이번에 정리할 논문은 UNet과 transformer를 합한 형태를 제안하며, medical image segmentation를 수행한다.

UNet과 transformer에 대한 사전 지식을 갖고 읽어야한다.

- 논문 제목: Transformers Make Strong Encoders for Medical Image Segmentation (2021)

Abstract

- medical image segmentation 에서는 U-Net이 사실상 표준으로 사용되었는데, U-Net은 long-range dependency 문제가 있다.

- transformer는 sequence-to-sequence prediction을 위해 디자인 되었는데, global self-attention 매카니즘의 아키텍쳐이지만, low-level detail이 부족하여 localization abilities가 제한적이다.

- 논문에서는 TransUNet을 제안하는데, medical image segmentation을 위해 Transformer와 U-Net을 합쳤다.

-> CNN feature map으로 부터 tokenized image patches를 transformer encoder에 넣는다.

-> decoder는 upsampling하고, high resolution CNN feature map과 결합하여 precise localization이 가능하도록 한다.

Method

TransUNet = transformer + U-Net

- CNN features로부터 디테일한 high-resolution spatial information을,

- transformer로부터 global context를,

- U-Net 아키텍쳐 디자인을 빌려와 tranformer를 적용하였다.

CNN-Transformer Hybrid as encoder

pure transformer를 사용한 것보다 CNN에서 추출된 feature를 transformer의 encoder로 넣어준 것이 더 높은 성능을 도출했다.

decoding 할때 U-Net처럼 residual connection을 연결해주기 위해 CNN의 feature map을 사용한다.

Image sequentialization

input x를 2D patches로 reshaping 하여 tokenizaiton한다. (i는 1~N이다.)

patch embedding

transformer에서와 마찬가지로 patch embedding해준다.

Cascading Upsampler (CUP)

각 block은

- x2 upsampling operator

- 3x3 conv layer

- ReLU layer

로 구성되어있다.

Experiment

Main contribution

- transformer를 medical image segmentation에 가져온 첫 연구라는 점

- CNN feauture를 transformer input으로 사용했으며, u-shaped 아키텍쳐 디자인을 사용했다는 점

728x90

'Computer Vision > 논문' 카테고리의 다른 글

[SimCLR v2] Big Self-Supervised Models are Strong Semi-Supervised Learners (0)	2023.02.08
[UNETR] UNETR: Transformers for 3D Medical Image Segmentation (0)	2023.01.25
[U-Net] Convolutional Networks for Biomedical Image Segmentation (0)	2023.01.25
[ViT] An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale (0)	2023.01.22
[MICLe] Big Self-Supervised Models Advance Medical Image Classifications (0)	2023.01.20

Abstract

Method

Experiment

'Computer Vision > 논문' 카테고리의 다른 글

검색 태그

티스토리툴바