HeYStRanGeR
article thumbnail

(23.01.17)

SSL(self-supervised learning) 논문 리뷰 1탄

 

Self-supervised learing 에 대해 처음으로 리뷰할 논문은 SimCLR이라고 불리는 논문이다.

- 논문 제목: A Single Framework for Contrastive Learning of Visual Representations (ICML 2020)

- https://arxiv.org/pdf/1911.05722.pdf


 

Abstract

저자는 3가지를 보여주는데, 아래와 같다.

1. self-supervised learning에서 data augmentations의 구성이 매우 중요한 역할을 한다.

2. representation과 contrastive loss 간의 learnable nonlinear transformation을 제안하여 learned representation의 퀄리티를 향상시킨다.

3. contrastive learning은 supervised learing보다 더 큰 batch sizes, 더 많은 training step에서 좋은 결과를 불러온다

 

 

Introduction

learning effective visual representations without human supervision은 두 가지의 방식으로 생각해 볼 수 있는데, 아래와 같다.

1. generative approach: learn to generate / model pixels in the input space

2. discriminative approach: objective function을 사용해서 representations를 학습

=> discriminative approach가 contrastive learning 을 기반으로 한다

 

저자는 이 논문에서 a simple framework for contrastive learning of visual representations, 즉 SimCLR을 제안한다. 

 

 

method

과정 설명)

이미지를 각각 서로 다른 2개의 augment를 시켜준다. 각각 augment된 이미지를 f(resnet)에 넣어 feature를 추출하고, g(MLP)에 넣어 projection 시켜준다. 이렇게 해서 나온 것으로 contrastive loss를 계산하고, 이를 최소화시키는 방향으로 파라미터를 업데이트시켜주는 것이다.

 

 

 

 

simCLR의 핵심 4가지

1. data augmentation 3가지

  - random cropping, random color distortions, random Gaussian blur

  - 실험해보니 random crop & color distortion 을 같이 한게 제일 성능이 좋다

2. base encoder (f)

3. MLP (g)

4. contrastive loss function (NT-Xent)

 

 

+ 그림으로 쉽게 이해할 수 있는 글 (https://amitness.com/2020/03/illustrated-simclr/)

-> framework 설명부터 Loss 설명까지 다 있다

 

 

Experiments

 

 

 

main conclusion

- 기존의 pretext task를 학습하는 방식이 아닌 contrastive learning을 기반으로 한 간단한 프레임워크를 제안했다는 점

 

 

 

 

 

-----

논문을 읽으면서 maximize agreement가 어떤 뜻인지 명확하게 이해되지 않았는데, 궁금증 해결!!

-> agreement가 비슷하다 라는 의미로도 쓰인다고 한다. 즉, 비슷함을 최대화한다는 의미로 해석하면 될 것 같다.

728x90
profile

HeYStRanGeR

@HeYStRanGeR

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!