(23.01.25)
medical ai 논문 리뷰 3탄
이번에 정리할 논문은 UNet과 transformer를 합한 형태를 제안하며, medical image segmentation를 수행한다.
UNet과 transformer에 대한 사전 지식을 갖고 읽어야한다.
- 논문 제목: Transformers Make Strong Encoders for Medical Image Segmentation (2021)
- https://arxiv.org/pdf/2102.04306.pdf
Abstract
- medical image segmentation 에서는 U-Net이 사실상 표준으로 사용되었는데, U-Net은 long-range dependency 문제가 있다.
- transformer는 sequence-to-sequence prediction을 위해 디자인 되었는데, global self-attention 매카니즘의 아키텍쳐이지만, low-level detail이 부족하여 localization abilities가 제한적이다.
- 논문에서는 TransUNet을 제안하는데, medical image segmentation을 위해 Transformer와 U-Net을 합쳤다.
-> CNN feature map으로 부터 tokenized image patches를 transformer encoder에 넣는다.
-> decoder는 upsampling하고, high resolution CNN feature map과 결합하여 precise localization이 가능하도록 한다.
Method
TransUNet = transformer + U-Net
- CNN features로부터 디테일한 high-resolution spatial information을,
- transformer로부터 global context를,
- U-Net 아키텍쳐 디자인을 빌려와 tranformer를 적용하였다.
CNN-Transformer Hybrid as encoder
pure transformer를 사용한 것보다 CNN에서 추출된 feature를 transformer의 encoder로 넣어준 것이 더 높은 성능을 도출했다.
decoding 할때 U-Net처럼 residual connection을 연결해주기 위해 CNN의 feature map을 사용한다.
Image sequentialization
input x를 2D patches로 reshaping 하여 tokenizaiton한다. (i는 1~N이다.)
patch embedding
transformer에서와 마찬가지로 patch embedding해준다.
Cascading Upsampler (CUP)
각 block은
- x2 upsampling operator
- 3x3 conv layer
- ReLU layer
로 구성되어있다.
Experiment
Main contribution
- transformer를 medical image segmentation에 가져온 첫 연구라는 점
- CNN feauture를 transformer input으로 사용했으며, u-shaped 아키텍쳐 디자인을 사용했다는 점