[X:AI] BYOL 논문 리뷰

Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

논문 원본 : https://arxiv.org/abs/2006.07733

Bootstrap your own latent: A new approach to self-supervised Learning

We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view o

arxiv.org

1. Abstract & Introduction

최신 contrastive methods는 negative pairs의 신중한 처리가 필요
그리고 큰 batch size, memory bank와 customized mining strategies에 의존
또한, 성능이 image augmentation의 선택에 크게 의존

BYOL(Bootstrap Your Own Latent)은 self-supervised image representation learning을 위한 새로운 접근법 제시
negative pairs를 사용하지 않고도 최신 constrastive methods보다 높은 성능 달성
negative pair를 사용하지 않기 때문에 image augmentation 선택에 더욱 강건
네트워크의 출력은 bootstrap하여 개선된 representation을 이끌어냄

특히, BYOL는 상호작용하며 서로 학습하는 online network와 target network라는 두 개의 신경망 사용
online network가 동일한 이미지의 다른 augmetation view에 대한 target network의 representation을 예측하도록 학습
이러한 목표는 모든 이미지에 대한 동일한 벡터를 출력하는 것과 같은 collapsed solution을 허용하지만, 실험적으로 BYOL이 해당 solution에 수렴하지 않음을 보여줌

3. Method

BYOL의 목표는 downstream task에 사용할 수 있는 representation yθ을 학습하는 것
이전에 설명한 바와 같이, online network와 target network라는 두 개의 신경망을 사용

online network는 가중치 θ로 정의되며, encoder fθ, projector gθ 그리고 predictor qθ의 세 단계로 구성
target network는 online network와 다르게 predictor가 없으며 다른 가중치 ξ를 사용

online network 가중치 θ는 loss function의 gradient를 통해 업데이트
하지만 target network 가중치 ξ는 θ의 가중 평균으로 업데이트 (EMA, 지수 이동 평균)
학습이 진행될 수록 τ를 점점 1에 가까운 값으로 설정 ( τ = 0.996으로 시작)

image augmentation 분포(T,T')가 주어졌을 때, BYOL은 각각 이미지 증강 t~T와 t'~T'를 적용하여 두 개의 augmentation view를 생성(v,v')
첫 번째 augmentation view v에서, online network는 encoder와 projector를 거쳐 zθ를 만듦
그 후 predictor를 적용하여 qθ(zθ)를 생성
target network는 두 번쨰 augmentation view v'에서 encoder와 projector를 거쳐 z' ξ를 만듦

Augmentation 조합을 교환하여 loss를 한 번 더 계산
최종 loss는 아래와 같음

4. Experimental evaluation

ImageNet에서 linear evaluation에 대한 성능

ImageNet의 작은 부분 집합에서 label 정보를 BYOL를 fine-tuning한 결과

ImageNet에서 학습한 representation이 다른 데이터셋에서도 잘 작동하는지 평가
linear evaluation과 fine-tuning 진행

BYOL이 이미지 분류 외의 다른 CV task에서도 잘 작동하는지 평가
semantic segmentation, object detection, depth estimation

5. Building intuitions with ablations

SimCLR

batch size가 줄어들면서 성능이 급격히 저하
이는 negative sample의 수가 줄어들기 때문임
augmentation 종류에도 성능이 민감 (특히 color에 대한 augmentation이 중요함을 확인)

BYOL

batch size가 256에서 4096까지의 넓은 범위에서 성능이 안정적으로 유지
두 모델 모두 batch size보다 augmentation이 성능에 좀 더 중요

Bootstrapping

τ=1인 경우 target networks가 업데이트 X
τ=0인 경우 target networks가 매 스텝마다 online networs의 파라미터를 그래도 복사
τ이 0.9~0.999 사이에서 68.4% 이상의 top-1 accuarcy를 보임

6. Conclusion

새로운 Self-Supervised Learning 알고리즘인 BYOL 소개
BYOL은 negaive pairs를 사용하지 않고, 자신의 이전 출력(target network)을 예측하여 representation 학습
ImageNet에서 ResNet-50과 ResNet-200을 사용하여 매우 높은 성능을 기록
하지만 현재 이미지 데이터에 특화된 augmentation 방법에 의존하고 있어, 다른 데이터 유형(오디오, 비디오 등)에도 적용하려면 각 데이터에 맞는 augmentation 방법을 자동으로 찾게 하는 것이 앞으로의 중요한 과제

7. Reference

https://youtube.com/watch?v=wR_yEIuYIho&t

https://animilux.github.io/paper_review/2021/01/27/byol.html

https://hongl.tistory.com/109

'논문 리뷰 > CV' 카테고리의 다른 글

[X:AI] MobileNet 논문 리뷰 (0)	2025.01.12
[X:AI] DDPM 논문 리뷰 (1)	2024.08.11
[X:AI] NeRF 논문 리뷰 (0)	2024.07.28
[X:AI] VAE 논문 리뷰 (0)	2024.07.26
[X:AI] Detr 논문 리뷰 (1)	2024.07.23

hyeon827

[X:AI] BYOL 논문 리뷰

Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

'논문 리뷰 > CV' 카테고리의 다른 글

티스토리툴바

[X:AI] BYOL 논문 리뷰

Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

'논문 리뷰 > CV' 카테고리의 다른 글

관련글

티스토리툴바