본문 바로가기

Study29

[밑시딥2] Chapter 3~4. word2vec & 속도 개선 word2vec 통계 기반 기법의 문제점말뭉치 어휘의 수는 100만개 이상통계 기반 기법에서는 '100만개x100만개' 거대한 행렬 생성 -> SVD 적용 현실적 어려움통계 기반 기법은 단 1회의 처리만에 단어의 분산 표현을 얻음한편, 추런 기반 기법에서는, 예컨대 신경망을 이용하는 경우는 미니배치로 학습하는 것이 일반적 추론 기반 기법주변 단어(맥락)이 주어졌을 때 "?"에 무슨 단어가 들어가는지를 추측하는 작업모델(신경망)은 맥락 정보를 입력 받아 각 단어의 출현 확률을 출력학습 결과로 단어의 분산 표현을 얻음 신경망에서의 단어 처리단어를 '고정 길이의 벡터'로 변환하여 뉴런의 수 '고정' (원핫 벡터)먼저 총 어휘 수만큼의 원소를 갖는 벡터 준비인덱스가 단어ID와 같은 원소를 1로, 나머지는 모두 .. 2024. 1. 24.
[모두를 위한 딥러닝 시즌2] lab 10-5. Advanced CNN(VGG) VGG 기초CIFAR-10 데이터에 VGG 모델 적용 2024. 1. 21.
[밑시딥2] Chapter 2. 자연어와 단어의 분산 표현 자연어 처리란자연어 : 우리가 평소에 쓰는 말(부드러운 언어)인공어: 프로그래밍 언어, 마크업 언어 등(딱딱한 언어)자연어 처리 : 우리가 평소에 쓰는 말(자연어)을 컴퓨터에게 이해시키기 위한 기술단어의 의미단어 : 의미의 최소 단위자연어를 컴퓨터에게 이해시키는 데는 무엇보다 '단어의 의미'를 이해시키는 게 중요   1. 시소러스를 활용한 기법   2. 통계 기반 기법   3. 추론 기반 기법 시소러스자연어 처리에서 일반적인 사전 아니라 시소러스 형태의 사전 애용 (WordNet이 가장 유명)시소러스: 유의어 사전으로, '뜻이 같은 단어(동의어)' 나 '뜻이 비슷한 단어(유의어)'가 한 그룹으로 분류또한, 자연어 처리에 이용되는 시소러스는 단어 사이의 '상위와 하위' 혹은 '전체와 부분' 등 더 세세한 .. 2024. 1. 20.
[파이썬 딥러닝 파이토치] PART 4. 컴퓨터 비전 CIFAR-10 데이터에 Augmentation 기법을 이용해 모델의 성능 향상시키기transform 함수를 사용하여 해당 이미지를 50% 확률로 좌우 반전 시킴모델 정확도가 67.26%(기존 CNN 모델 65.98%, 대략 1.28% 상승) CIFAR-10 데이터에 ResNet 모델 적용해 성능 향상시키기고급 CNN 모델인 ResNet 적용한 결과 82.57% 정확도(Augmentation이 적용된 CNN 67.26%, 15.31% 상승)CIFAR-10 데이터에 파이토치에서 제공하고 있는 레퍼런스 모델 불러와 적용ResNet34(pretrained = False) 모델 구조만 불러오고 파라미터는 특정 Initializer에서 랜덤으로 샘플링 값 이용정확도 79.47% (Augmentation이 적용된 .. 2024. 1. 19.
[밑시딥1] Chapter 8. 딥러닝 더 깊은 신경망으로(손글씨 숫자를 인식하는 심층 CNN)합성곱 계층 모두 3x3 크기의 작은 필터,  활성화 함수는 ReLU층이 깊어지면서 채널 수가 더 늘어남(16,16,32,32,64,64)풀링 계층을 추가하여 중간 데이터의 공간 크기를 점차 줄여감마지막 단의 완젼연결 계층에서는 Dropout 계층 활용가중치 초깃값은 He 초깃값 사용, Adam을 사용해 가중치 매개변수를 최적화 정확도를 더 높이려면 -> 앙상블 학습, 학습률 감소, 데이터 확장 등 데이터 확장손쉬운 방법이면서도 정확도 개선에 아주 효과적이미지를 일부 잘라냄 (crop)좌우를 뒤집 (flip)회전에 의한 변형(rotate)이동에 의한 변형(translation)크기수정(rescale)밝기변화(lighting condition) 등 층.. 2024. 1. 18.
[모두를 위한 딥러닝 시즌2] lab 10-2. MNIST CNN 사람의 손글씨 데이터인 MNIST을 이용해 CNN 구현하기 2024. 1. 15.