HeYStRanGeR
article thumbnail

(23.01.25)

medical ai 논문 리뷰 3탄

 

이번에 정리할 논문은 UNet과 transformer를 합한 형태를 제안하며, medical image segmentation를 수행한다.

UNet과 transformer에 대한 사전 지식을 갖고 읽어야한다.

- 논문 제목: Transformers Make Strong Encoders for Medical Image Segmentation (2021)

- https://arxiv.org/pdf/2102.04306.pdf


 

Abstract

- medical image segmentation 에서는 U-Net이 사실상 표준으로 사용되었는데, U-Net은 long-range dependency 문제가 있다.

- transformer는 sequence-to-sequence prediction을 위해 디자인 되었는데, global self-attention 매카니즘의 아키텍쳐이지만, low-level detail이 부족하여 localization abilities가 제한적이다.

- 논문에서는 TransUNet을 제안하는데, medical image segmentation을 위해 Transformer와 U-Net을 합쳤다.

-> CNN feature map으로 부터 tokenized image patches를 transformer encoder에 넣는다. 

-> decoder는 upsampling하고, high resolution CNN feature map과 결합하여 precise localization이 가능하도록 한다.

 

 

 

Method

TransUNet = transformer + U-Net

- CNN features로부터 디테일한 high-resolution spatial information을, 

- transformer로부터 global context를,

- U-Net 아키텍쳐 디자인을 빌려와 tranformer를 적용하였다. 

 

 

CNN-Transformer Hybrid as encoder

pure transformer를 사용한 것보다 CNN에서 추출된 feature를 transformer의 encoder로 넣어준 것이 더 높은 성능을 도출했다.

decoding 할때 U-Net처럼 residual connection을 연결해주기 위해 CNN의 feature map을 사용한다. 

 

 

Image sequentialization

input x를 2D patches로 reshaping 하여 tokenizaiton한다. (i는 1~N이다.)

 

 

patch embedding

transformer에서와 마찬가지로 patch embedding해준다.

 

 

Cascading Upsampler (CUP)

각 block은 

- x2 upsampling operator

- 3x3 conv layer

- ReLU layer

로 구성되어있다. 

 

 

 

Experiment

 

 

 

Main contribution

- transformer를 medical image segmentation에 가져온 첫 연구라는 점

- CNN feauture를 transformer input으로 사용했으며, u-shaped 아키텍쳐 디자인을 사용했다는 점

 

 

728x90
profile

HeYStRanGeR

@HeYStRanGeR

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!