본문 바로가기

Relu4

[Paper Review] A Comprehensive Overhaul of Feature Distillation 논문 원본 : https://arxiv.org/abs/1904.01866 A Comprehensive Overhaul of Feature DistillationWe investigate the design aspects of feature distillation methods achieving network compression and propose a novel feature distillation method in which the distillation loss is designed to make a synergy among various aspects: teacher transform, student tarxiv.org 3. Approach     3.1. Distillation positionN.. 2025. 2. 1.
[파이썬 딥러닝 파이토치] Part 3. Deep Learning [예제 3-1] Dropout#1 : 몇 퍼센트의 노드에 대해 가중값을 계산하지 않을 것인지 명시#2 : 2차원 데이터를 1차원 데이터로 변환(MLP 모델은 1차원 벡터 값을 입력 받을 수 있음       #3, #4각 sigmoid() 함수의 결괏값에 대해 Dropout 적용 p = 몇 퍼센트의 노드에 대해 계산하지 않을 것인지 조정 training = self.training -> 학습상태와 검증상태에 따라 다르게 적용하기 위해 존재 model.train()을 명시할 때 self.training = True , model.eval()을 명시할 때 self.training = False 적용 이론상 Dropout을 적용했을 때 일반화가 강해져 Test Accuracy가 높아지는 결과가 기대But, 이는.. 2024. 1. 12.
[모두를 위한 딥러닝 시즌2] lab 9-1~9-4 [9-1] 시그모이드의 문제점출력이 0에 가까워지자(또는 1에 가까워지자) 그 미분은 0에 다가감 0에 가까운 기울기가 곱해질 경우 역전파의 기울기 값이 점점 사라짐 (기울기 소실) 이를 보완하고자 ReLU 함수가 나옴입력값이 0을 넘을 때 기울기 = 1음수의 영역에서는 기울기가 0이어서 음수로 activation 될 경우 기울기가 사라질 위험이 있으나 그래도 잘 동작 [9-2]N -> weight initialization 적용 (훨씬 더 성능이 좋음)weight 초깃값 설정이 딥러닝 성능에 있어 매우 중요한 부분IF, 가중치 초깃값을 0으로 설정할 경우 모든 gradient 값이 0이기에 학습할 수 X[RBM (Restricted Boltzmann machine)]같은 layer에 있는 node끼리는.. 2024. 1. 12.
[밑시딥1] Chapter 3. 신경망 3.1 퍼셉트론에서 신경망으로입력층, 출력층, 은닉층으로 구성은닉층의 뉴런은 사람 눈에 보이지 않음 (입력층,출력층과 달리)입력층 -> 0층, 은닉층 -> 1층, 출력층 -> 2층 가중치를 갖는 층은 2개뿐 = '2층 신경망'  3.2 활성화 함수입력 신호의 총합을 출력 신호로 변환하는 함수a = 가중치가 달린 입력신호 + 편향a를 활성화 함수 h( )에 넣어 y 출력 계단함수 = 임계값을 경계로 출력이 바뀌는 활성화 함수퍼셉트론에서 사용시그모이드 함수 (신경망에서 자주 이용)부드러운 곡선이며 입력에 따라 출력이 연속적으로 변화즉, 연속적인 실수(0.731...., 0.880..... 등) 출력 [계단함수와 시그모이드 함수 공통점]입력이 중요하면 큰 값 출력, 중요하지 않으면 작은 값 출력비선형 함수 [.. 2024. 1. 9.