HeYStRanGeR
article thumbnail
[simMIM] SimMIM: a Simple Framework for Masked Image Modeling
Computer Vision/논문 2023. 5. 21. 20:57

(23.05.21) SSL(self-supervised learning) 논문 리뷰 11탄 - 논문 제목: SimMIM: a Simple Framework for Masked Image Modeling (CVPR 2022) - https://arxiv.org/pdf/2111.09886v2.pdf - https://github.com/microsoft/SimMIM Abstract 본 논문은 SimMIM (a simple framework for masked image modeling) 을 제안한다. discrete VAE 혹은 clustering을 통한 block-wise masking과 tokenization 없이 간단하게 접근하였다. 저자가 제안하는 framework의 간단한 디자인은 매우 강력한 re..

article thumbnail
What Do Self-supervised Vision Transformers Learn?
Computer Vision/논문 2023. 5. 19. 23:40

(23.05.19) SSL (Self-supervised learning) 논문 리뷰 10탄 - contrastive learning (CL)과 maksed image modeling (MIM) 에 대해 비교하는 논문이다. - 논문 제목: What Do self-Supervised Vision Transformers Learn? (ICLR 2023) - https://arxiv.org/pdf/2305.00729.pdf Summary contrastive learning (CL) 과 masked image modeling (MIM) 의 representations, downstream tasks에서의 성능을 비교하는 논문이다. self-supervised ViT가 3가지 특성을 가진다는 것을 보여준다. (..

article thumbnail
[MAE] Masked Autoencoders Are Scalable Vision Learners
Computer Vision/논문 2023. 5. 18. 23:45

(23.05.18) SSL(self-supervised learning) 논문 리뷰 9탄 이것도 Kaiming He의 논문이다. 간단하게 정리해보았다. - 논문 제목: Masked Autoencoders Are Scalable Vision Learners (CVPR 2022) - https://arxiv.org/pdf/2111.06377.pdf - https://github.com/facebookresearch/mae Abstract 본 논문은 masked autoencoders 가 computer vision에서 scalable self-supervised learners라는 것을 보여준다. MAE approach는 간단하다. ==> input image의 random patches에 mask를 씌우고..

article thumbnail
[SimSiam] Exploring Simple Siamese Representation Learning
Computer Vision/논문 2023. 5. 4. 13:16

(23.05.04) SSL(self-supervised learning) 논문 리뷰 8탄 Kaiming He 의 논문이다 - 논문 제목: Exploring Simple Siamese Representation Learning (CVPR 2021) - https://arxiv.org/pdf/2011.10566.pdf Abstract Siamese networks는 unsupervised visual representation learning의 최신 모델에서 널리 쓰이고 있다. 하나의 image에 대한 두가지 augmentations 사이의 similarity를 최대화한다. 본 논문에서는 세가지 요소를 없앤 simple Siamese networks를 제안한다. 그 세가지 요소는 아래와 같다. 1. nega..

article thumbnail
[논문] Single-Image Depth Perception in the Wild
Computer Vision/논문 2023. 5. 3. 19:31

(23.05.03) Depth Estimation 논문 정리하기 4탄 이런 방법도 있구나.. 라는 것만 보고 넘어간다 - 논문 제목: Single-Image Depth Perception in the Wild (NeurIPS 2016) - https://arxiv.org/pdf/1604.03901v2.pdf (https://arxiv.org/pdf/2003.06620.pdf survey에서 설명하는 내용) supervised signal로 depth의 gorund truth가 사용되는 것이 아니라, realative depth annotations에 의해 학습된다. Abstract 본 논문에서는 unconstrained setting에서 single image로부터 depth를 회복하는 방식을 제안하며,..

article thumbnail
[논문] Deeper Depth Prediction with Fully Convolutional Residual Networks
Computer Vision/논문 2023. 5. 3. 10:26

(23.05.03) Depth Estimation 논문 정리하기 3탄 - 논문 제목: Deeper Depth Prediction with Fully Convolutional Residual Networks (3DV 2016) - https://arxiv.org/pdf/1606.00373v2.pdf (https://arxiv.org/pdf/2003.06620.pdf survey에서 설명하는 내용) depth maps와 single images들 간의 relation을 매핑하는 것을 학습하기 위해서 residual learning을 도입한 논문이다. Summary 제안한 방식은 기존의 것보다 단순하지 않다. 그러나, 더 적은 data와 더 적은 time에 더 높은 퀄리티의 결과를 달성했다는 점에서 의미가 있..

article thumbnail
[논문] Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture
Computer Vision/논문 2023. 5. 2. 13:45

(23.05.02) Depth Estimation 논문 정리하기 2탄 - 논문 제목: Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture (ICCV 2015) - https://arxiv.org/pdf/1411.4734v4.pdf (https://arxiv.org/pdf/2003.06620.pdf survey에서 설명하는 내용) single image로부터 depth estimation, surface normal estimation, semantic label prediction과 같은 task를 다룰 수 있는 일반적인 multi-scale framework를 제안..

article thumbnail
[논문] Depth Map Prediction from a Single Image using a Multi-Scale Deep Network
Computer Vision/논문 2023. 5. 1. 17:09

(23.05.01) Depth Estimation 논문 정리하기 1탄 - 논문 제목: Depth Map Prediction from a Single Image using a Multi-Scale Deep Network (NeurIPS 2014) - https://arxiv.org/pdf/1406.2283v1.pdf (https://arxiv.org/pdf/2003.06620.pdf survey에서 설명하는 내용) supervised methods의 supervisory signal은 depth maps의 ground truth에 기반한다. Monocular depth estimation은 regressive problem으로 여겨질 수 있다. deep neural network는 single images..

article thumbnail
[CLIP] Learning Transferable Visual Models From Natural Language Supervision
Computer Vision/논문 2023. 4. 3. 17:29

(23.04.03) Vision Language Model 논문 리뷰 1탄 논문 제목: Learning Transferable Visual Models From Natural Language Supervision (2021) - https://arxiv.org/pdf/2103.00020.pdf 기존 state-of-art computer vision systems - 고정되어있는 object 카테고리에서 예측하고 학습. -> 제한되어있는 supervision 형태로 인해 제한되는 부분들 발생. -> 자연어를 사용하여 image representation learning하는 것은 어떨까? ====> natural language supervision CLIP 1) contrastive pre-trainin..

article thumbnail
[SWSSS] Learning pseudo labels for semi-and-weakly supervised semantic segmentation
Computer Vision/논문 2023. 3. 15. 00:33

(23.03.14) weakly + semi 합해서 segmentation 하는 방법론 떠오르는게 있어서 정리해두고, 비슷한 논문이 있는지 찾아봤는데 역시나 이미 논문이 있다.. semi, weakly 선행 연구에 대해서 논문에 잘 설명되어있어서 내용 정리하는 느낌으로 적어보았다. 논문에서 제안하는 방법론의 그림과 글의 내용이 뭔가 맞지 않아서 이해한게 맞는지 모르겠다.. 논문 제목: Learning pseudo labels for semi-and-weakly supervised semantic segmentation - https://www.sciencedirect.com/science/article/pii/S003132032200406X 우선, segmentation에서 사용되는 semi-superv..

article thumbnail
[SegNet] A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
Computer Vision/논문 2023. 3. 4. 16:00

(2023.03.04) semantic segmentation 논문 리뷰 2탄 - 논문 제목: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (2015) - https://arxiv.org/pdf/1511.00561v3.pdf Model Architecture SegNet은 encoder-decoder 구조이다. - encoder는 vgg16의 13 conv layer를 가져왔다. (fully connected layer는 resolution을 낮추고 parameter가 늘어나기 때문에 없앴다.) - 이와 대응하는 decoder도 13 layer로 구성되어있다. - 마지막 decoder의 output은 multi-clas..

article thumbnail
[FCN] Fully Convolutional Networks for Semantic Segmentation
Computer Vision/논문 2023. 3. 2. 21:54

(23.03.02) Semantic segmentation 논문 리뷰 1탄 - 논문 제목: Fully Convolutional Networks for Semantic Segmentation (CVPR 2015) - https://arxiv.org/pdf/1411.4038.pdf Summary FCN은 convolutional network 구조로 end-to-end 학습이 가능하며, pixel 단위로 class를 예측하는 semantic segmentation 분야에서 이 당시 SOTA를 달성했다. Keyword - end-to-end convolutional network for semantic segmentation (최초?) - 기존 pre-training model (AlexNet, VGG 등)을..

article thumbnail
[SEAM] Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
Computer Vision/논문 2023. 2. 14. 21:44

(23.02.14) WSL(weakly supervised learning) 논문 리뷰 3탄 본 논문에서 제안하는 method가 연관 개념들이 굉장히 많이 들어간다. 성능개선이 있었지만, 간단한 mechanism은 아닌듯하다...! - 논문 제목: Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation (CVPR 2020) - https://arxiv.org/pdf/2004.04581v1.pdf 핵심 정리 - SEAM, PCM 제안. fully and weakly supervision의 gap을 줄이고자. - siamese network 구조로 구현, ECR(equivariant cross reg..

article thumbnail
[DSRG] Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing
Computer Vision/논문 2023. 2. 12. 20:21

(23.02.12) WSL(weakly supervised learning) 논문 리뷰 2탄 사전지식이 별로 없는 상태에서 읽어서 이해하는데 조금 시간이 걸렸다. 논문 읽는 것에서 끝나지 않고, 코드를 봐야한다는 생각이 강력하게 드는 논문이다. - 논문 제목: Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing (CVPR 2018) -https://openaccess.thecvf.com/content_cvpr_2018/papers/Huang_Weakly-Supervised_Semantic_Segmentation_CVPR_2018_paper.pdf Weakly-supervised semantic segmentatio..

article thumbnail
[CAM] Learning Deep Features for Discriminative Localization
Computer Vision/논문 2023. 2. 9. 19:00

(23.02.09) WSL(weakly supervised learning) 논문 리뷰 1탄 CAM을 읽어보았다...! 꽤나 오래된 논문이지만, 아직도 꾸준히 인용되고 있다. - 논문 제목: Learning Deep Features for Discriminative Localization (CVPR 2016) - https://arxiv.org/pdf/1512.04150v1.pdf Problem & Solution Problem - CNN이 좋은 성능을 내는데, 이것이 왜 좋은 성능을 내는지 쉽게 설명할 수 없다는 black-box 문제가 있다. Solution - CAM을 제안하여 CNN이 어떻게 task를 수행하는지 설명할 수 있게 된다. -> 즉, CNN이 어떤 부분을 보고 예측했는지를 알려주는 역..

728x90