본문 바로가기
논문 리뷰/CV

[X:AI] BYOL 논문 리뷰

by hyeon827 2024. 8. 5.

Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

논문 원본 :  https://arxiv.org/abs/2006.07733

 

Bootstrap your own latent: A new approach to self-supervised Learning

We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view o

arxiv.org

 

1. Abstract & Introduction

  • 최신 contrastive methods는 negative pairs의 신중한 처리가 필요
  • 그리고 큰 batch size, memory bank와 customized mining strategies에 의존
  • 또한, 성능이 image augmentation의 선택에 크게 의존
  • BYOL(Bootstrap Your Own Latent)은 self-supervised image representation learning을 위한 새로운 접근법 제시
  • negative pairs를 사용하지 않고도 최신 constrastive methods보다 높은 성능 달성
  • negative pair를 사용하지 않기 때문에 image augmentation 선택에 더욱 강건
  • 네트워크의 출력은 bootstrap하여 개선된 representation을 이끌어냄
  • 특히, BYOL는 상호작용하며 서로 학습하는 online network와 target network라는 두 개의 신경망 사용
  • online network가 동일한 이미지의 다른 augmetation view에 대한 target network의 representation을 예측하도록 학습
  • 이러한 목표는 모든 이미지에 대한 동일한 벡터를 출력하는 것과 같은 collapsed solution을 허용하지만, 실험적으로 BYOL이 해당 solution에 수렴하지 않음을 보여줌

 

 

3. Method

 

  • BYOL의 목표는 downstream task에 사용할 수 있는 representation yθ을 학습하는 것
  • 이전에 설명한 바와 같이, online network와 target network라는 두 개의 신경망을 사용
  • online network는 가중치 θ로 정의되며,  encoder fθ,  projector gθ 그리고 predictor qθ의 세 단계로 구성
  • target network는 online network와 다르게 predictor가 없으며 다른 가중치 ξ를 사용
  • online network 가중치 θ는 loss function의 gradient를 통해 업데이트
  • 하지만 target network 가중치 ξ는 θ의 가중 평균으로 업데이트 (EMA, 지수 이동 평균)
  • 학습이 진행될 수록 τ를 점점 1에 가까운 값으로 설정 ( τ = 0.996으로 시작)

 

  • image augmentation 분포(T,T')가 주어졌을 때, BYOL은 각각 이미지 증강 t~T와 t'~T'를 적용하여 두 개의 augmentation view를 생성(v,v')
  • 첫 번째 augmentation view v에서, online network는 encoder와 projector를 거쳐 zθ를 만듦
  • 그 후 predictor를 적용하여 qθ(zθ​)를 생성
  • target network는 두 번쨰 augmentation view v'에서 encoder와 projector를 거쳐 z' ξ를 만듦

  • Augmentation 조합을 교환하여 loss를 한 번 더 계산 
  • 최종 loss는 아래와 같음 

 

 

4. Experimental evaluation

  • ImageNet에서 linear evaluation에 대한 성능

  • ImageNet의 작은 부분 집합에서 label 정보를 BYOL를 fine-tuning한 결과

  • ImageNet에서 학습한 representation이 다른 데이터셋에서도 잘 작동하는지 평가
  • linear evaluation과 fine-tuning 진행

  • BYOL이 이미지 분류 외의 다른 CV task에서도 잘 작동하는지 평가
  • semantic segmentation, object detection, depth estimation

 

 

5. Building intuitions with ablations

 

   SimCLR

  • batch size가 줄어들면서 성능이 급격히 저하
  • 이는 negative sample의 수가 줄어들기 때문임
  • augmentation 종류에도 성능이 민감 (특히 color에 대한 augmentation이 중요함을 확인)

   BYOL

  • batch size가 256에서 4096까지의 넓은 범위에서 성능이 안정적으로 유지
  • 두 모델 모두 batch size보다 augmentation이 성능에 좀 더 중요

 

   Bootstrapping

  • τ=1인 경우 target networks가 업데이트 X
  • τ=0인 경우 target networks가 매 스텝마다 online networs의 파라미터를 그래도 복사
  • τ이 0.9~0.999 사이에서 68.4% 이상의 top-1 accuarcy를 보임

 

6. Conclusion

  • 새로운 Self-Supervised Learning 알고리즘인 BYOL 소개
  • BYOL은 negaive pairs를 사용하지 않고,  자신의 이전 출력(target network)을 예측하여 representation 학습
  • ImageNet에서 ResNet-50과 ResNet-200을 사용하여 매우 높은 성능을 기록
  • 하지만 현재 이미지 데이터에 특화된 augmentation 방법에 의존하고 있어, 다른 데이터 유형(오디오, 비디오 등)에도 적용하려면 각 데이터에 맞는 augmentation 방법을 자동으로 찾게 하는 것이 앞으로의 중요한 과제

 

7. Reference

https://youtube.com/watch?v=wR_yEIuYIho&t

https://animilux.github.io/paper_review/2021/01/27/byol.html

https://hongl.tistory.com/109

'논문 리뷰 > CV' 카테고리의 다른 글

[X:AI] Flamingo 논문 리뷰  (0) 2024.08.26
[X:AI] DDPM 논문 리뷰  (1) 2024.08.11
[X:AI] NeRF 논문 리뷰  (0) 2024.07.28
[X:AI] Detr 논문 리뷰  (0) 2024.07.23
[X:AI] MOFA-Video 논문 리뷰  (0) 2024.07.20