HeYStRanGeR
article thumbnail

(23.04.03)

 

Vision Language Model 논문 리뷰 1탄

 

논문 제목: Learning Transferable Visual Models From Natural Language Supervision (2021)

- https://arxiv.org/pdf/2103.00020.pdf

 


 

기존 state-of-art computer vision systems

- 고정되어있는 object 카테고리에서 예측하고 학습.

-> 제한되어있는 supervision 형태로 인해 제한되는 부분들 발생.

-> 자연어를 사용하여 image representation learning하는 것은 어떨까?

====> natural language supervision

 

 

CLIP

 

1) contrastive pre-training

- 기존의 image model들은 image feature extractor와 linear classifier를 학습시켜 label을 예측하는 방식이었다.

- CLIP은 image encodertext encoder를 사용하여 (image, text) training images(N batch)에 대해 학습하고, correct pairing (NxN)을 예측한다.

- image encoder와 text encoder에서 나온 2개의 embedding 값에 대해 contrastive learning을 한다.

- 2개 embedding 의 유사도(cosine similarity) 를 계산하여 (NxN)테이블에서의 대각선은 cosine similarity가 커지게끔, 그 외의 요소는 cosine similarity가 작아지게끔 학습시킨다. => CLIP이 multi-modal embedding space를 학습함.

- image encoder -> ResNet-50 (global average pooling -> attention pooling)

- text encoder -> Transformer

 

 

 

 

2) create dataset classifier from label text 

- 예측 class 값이 될 수 있는 여러 text label 에 대해 text encoder에 넣어 text embedding 을 만들어낸다.

 

 

3) use for zero-shot prediction

- image를 image encoder에 넣어 image embedding으로 만들고, 2)에서 만들었던 text embedding와의 유사도를 비교하여 가장 유사한 text label을 찾는다.

- 이때, unseen class에 대해서 예측할 수 있다 -> zero-shot transfer

 

 


 

Natural Language Supervision

- 언어에 대한 representation도 학습하기 때문에 zero-shot transfer 가능.

- 라벨링 필요하지 않아 scaling 용이함.

 

 

Large Dataset

- MS-COCO, Visual Genome, YFCC100M 세가지 데이터셋에서 image들을 natural language titles 혹은 descriptions (in English) 파일 이름을 갖도록 하였다. 

- 이 크기는 ImageNet과 같았다.

 

 

 

 

 

Experiments

 

 

 

 

 

728x90
profile

HeYStRanGeR

@HeYStRanGeR

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!