batch normalization3 [파이썬 딥러닝 파이토치] Part 3. Deep Learning [예제 3-1] Dropout#1 : 몇 퍼센트의 노드에 대해 가중값을 계산하지 않을 것인지 명시#2 : 2차원 데이터를 1차원 데이터로 변환(MLP 모델은 1차원 벡터 값을 입력 받을 수 있음 #3, #4각 sigmoid() 함수의 결괏값에 대해 Dropout 적용 p = 몇 퍼센트의 노드에 대해 계산하지 않을 것인지 조정 training = self.training -> 학습상태와 검증상태에 따라 다르게 적용하기 위해 존재 model.train()을 명시할 때 self.training = True , model.eval()을 명시할 때 self.training = False 적용 이론상 Dropout을 적용했을 때 일반화가 강해져 Test Accuracy가 높아지는 결과가 기대But, 이는.. 2024. 1. 12. [모두를 위한 딥러닝 시즌2] lab 9-1~9-4 [9-1] 시그모이드의 문제점출력이 0에 가까워지자(또는 1에 가까워지자) 그 미분은 0에 다가감 0에 가까운 기울기가 곱해질 경우 역전파의 기울기 값이 점점 사라짐 (기울기 소실) 이를 보완하고자 ReLU 함수가 나옴입력값이 0을 넘을 때 기울기 = 1음수의 영역에서는 기울기가 0이어서 음수로 activation 될 경우 기울기가 사라질 위험이 있으나 그래도 잘 동작 [9-2]N -> weight initialization 적용 (훨씬 더 성능이 좋음)weight 초깃값 설정이 딥러닝 성능에 있어 매우 중요한 부분IF, 가중치 초깃값을 0으로 설정할 경우 모든 gradient 값이 0이기에 학습할 수 X[RBM (Restricted Boltzmann machine)]같은 layer에 있는 node끼리는.. 2024. 1. 12. [밑시딥1] Chapter 6. 학습 관련 기술들 최적화 : 손실 함수의 값을 가능한 한 낮추는 매개변수의 최적값을 찾는 문제를 푸는 것[SGD의 단점]해당 함수의 기울기 = y축 방향은 가파른데 x축 방향은 완만기울기 대부분은 최솟값 (x,y) = (0,0) 방향을 가리키지 X해당 함수에 SGD 적용상당히 비효율적인 움직임즉, 비등방성 함수에선은 탐색 경로가 비효율적 (방향에 따라 기울기가 달라지는 함수)*가장 가파르게 내려가는 방향은 수직 방향! [모멘텀(Momentum)] *Gradient 누적함으로써 관성을 가지게 됨v = 속도 αv = 물체가 아무런 힘을 받지 않을 때 서서히 하강시키는 역할(α는 0.9등의 값으로 설정)기울기 방향으로 힘을 받아 물체가 가속된다는 물리법칙 local minimum에서 빠져나올 수 있음But, 큰 폭으로 인해 .. 2024. 1. 10. 이전 1 다음