Bootstrap Your Own Latent A New Approach to Self-Supervised Learning
논문 원본 : https://arxiv.org/abs/2006.07733
1. Abstract & Introduction
- 최신 contrastive methods는 negative pairs의 신중한 처리가 필요
- 그리고 큰 batch size, memory bank와 customized mining strategies에 의존
- 또한, 성능이 image augmentation의 선택에 크게 의존
- BYOL(Bootstrap Your Own Latent)은 self-supervised image representation learning을 위한 새로운 접근법 제시
- negative pairs를 사용하지 않고도 최신 constrastive methods보다 높은 성능 달성
- negative pair를 사용하지 않기 때문에 image augmentation 선택에 더욱 강건
- 네트워크의 출력은 bootstrap하여 개선된 representation을 이끌어냄
- 특히, BYOL는 상호작용하며 서로 학습하는 online network와 target network라는 두 개의 신경망 사용
- online network가 동일한 이미지의 다른 augmetation view에 대한 target network의 representation을 예측하도록 학습
- 이러한 목표는 모든 이미지에 대한 동일한 벡터를 출력하는 것과 같은 collapsed solution을 허용하지만, 실험적으로 BYOL이 해당 solution에 수렴하지 않음을 보여줌
3. Method
- BYOL의 목표는 downstream task에 사용할 수 있는 representation yθ을 학습하는 것
- 이전에 설명한 바와 같이, online network와 target network라는 두 개의 신경망을 사용
- online network는 가중치 θ로 정의되며, encoder fθ, projector gθ 그리고 predictor qθ의 세 단계로 구성
- target network는 online network와 다르게 predictor가 없으며 다른 가중치 ξ를 사용
- online network 가중치 θ는 loss function의 gradient를 통해 업데이트
- 하지만 target network 가중치 ξ는 θ의 가중 평균으로 업데이트 (EMA, 지수 이동 평균)
- 학습이 진행될 수록 τ를 점점 1에 가까운 값으로 설정 ( τ = 0.996으로 시작)
- image augmentation 분포(T,T')가 주어졌을 때, BYOL은 각각 이미지 증강 t~T와 t'~T'를 적용하여 두 개의 augmentation view를 생성(v,v')
- 첫 번째 augmentation view v에서, online network는 encoder와 projector를 거쳐 zθ를 만듦
- 그 후 predictor를 적용하여 qθ(zθ)를 생성
- target network는 두 번쨰 augmentation view v'에서 encoder와 projector를 거쳐 z' ξ를 만듦
- Augmentation 조합을 교환하여 loss를 한 번 더 계산
- 최종 loss는 아래와 같음
4. Experimental evaluation
- ImageNet에서 linear evaluation에 대한 성능
- ImageNet의 작은 부분 집합에서 label 정보를 BYOL를 fine-tuning한 결과
- ImageNet에서 학습한 representation이 다른 데이터셋에서도 잘 작동하는지 평가
- linear evaluation과 fine-tuning 진행
- BYOL이 이미지 분류 외의 다른 CV task에서도 잘 작동하는지 평가
- semantic segmentation, object detection, depth estimation
5. Building intuitions with ablations
SimCLR
- batch size가 줄어들면서 성능이 급격히 저하
- 이는 negative sample의 수가 줄어들기 때문임
- augmentation 종류에도 성능이 민감 (특히 color에 대한 augmentation이 중요함을 확인)
BYOL
- batch size가 256에서 4096까지의 넓은 범위에서 성능이 안정적으로 유지
- 두 모델 모두 batch size보다 augmentation이 성능에 좀 더 중요
Bootstrapping
- τ=1인 경우 target networks가 업데이트 X
- τ=0인 경우 target networks가 매 스텝마다 online networs의 파라미터를 그래도 복사
- τ이 0.9~0.999 사이에서 68.4% 이상의 top-1 accuarcy를 보임
6. Conclusion
- 새로운 Self-Supervised Learning 알고리즘인 BYOL 소개
- BYOL은 negaive pairs를 사용하지 않고, 자신의 이전 출력(target network)을 예측하여 representation 학습
- ImageNet에서 ResNet-50과 ResNet-200을 사용하여 매우 높은 성능을 기록
- 하지만 현재 이미지 데이터에 특화된 augmentation 방법에 의존하고 있어, 다른 데이터 유형(오디오, 비디오 등)에도 적용하려면 각 데이터에 맞는 augmentation 방법을 자동으로 찾게 하는 것이 앞으로의 중요한 과제
7. Reference
https://youtube.com/watch?v=wR_yEIuYIho&t
https://animilux.github.io/paper_review/2021/01/27/byol.html
'논문 리뷰 > CV' 카테고리의 다른 글
[X:AI] Flamingo 논문 리뷰 (0) | 2024.08.26 |
---|---|
[X:AI] DDPM 논문 리뷰 (1) | 2024.08.11 |
[X:AI] NeRF 논문 리뷰 (0) | 2024.07.28 |
[X:AI] Detr 논문 리뷰 (0) | 2024.07.23 |
[X:AI] MOFA-Video 논문 리뷰 (0) | 2024.07.20 |