본문 바로가기

전체 글76

[밑시딥2] Chapter 5~6. 순환신경망(RNN)& 게이트가 추가된 RNN 언어 모델단어 나열에 확률 부여특정한 단어의 시퀀스에 대해서, 그 시퀀스가 일어날 가능성이 어느 정도인지를 확률로 평가기계 번역과 음성 인식에 언어 모델 응용음성 인식 시스템의 경우, 사람의 음성으로부터 몇 개의 문장 후보 생성그런 다음 언어 모델을 사용하여 후보 문장이 '문장으로써 자연스러운지'를 기준으로 순서를 매김또한 언어 모델은 새로운 문장을 생성하는 용도로도 이용단어 순서의 자연스러움을 확률적으로 평가하여 그 확률분포에 따라 다음으로 적합한 단어를 '자아낼' 수 있음P(w1,...,wm): w1,...,wm이라는 순서로 출현할 확률(동시확률)동시 확률은 사후 확률의 총곱으로 나타낼 수 있음주목할 점은 이 사후 확률은 타킷 단어보다 왼쪽에 있는 모든 단어를 맥락으로 했을 때의 확률위 결과는 확률의.. 2024. 1. 25.
[밑시딥2] Chapter 3~4. word2vec & 속도 개선 word2vec 통계 기반 기법의 문제점말뭉치 어휘의 수는 100만개 이상통계 기반 기법에서는 '100만개x100만개' 거대한 행렬 생성 -> SVD 적용 현실적 어려움통계 기반 기법은 단 1회의 처리만에 단어의 분산 표현을 얻음한편, 추런 기반 기법에서는, 예컨대 신경망을 이용하는 경우는 미니배치로 학습하는 것이 일반적 추론 기반 기법주변 단어(맥락)이 주어졌을 때 "?"에 무슨 단어가 들어가는지를 추측하는 작업모델(신경망)은 맥락 정보를 입력 받아 각 단어의 출현 확률을 출력학습 결과로 단어의 분산 표현을 얻음 신경망에서의 단어 처리단어를 '고정 길이의 벡터'로 변환하여 뉴런의 수 '고정' (원핫 벡터)먼저 총 어휘 수만큼의 원소를 갖는 벡터 준비인덱스가 단어ID와 같은 원소를 1로, 나머지는 모두 .. 2024. 1. 24.
[D&A] GoogLeNet 논문 리뷰 GoogLeNet은 2014년 ILSVRC에서 VGGNet을 제치고 우승을 차지한 모델이다.이름에서 알 수 있듯이 구글이 해당 모델 개발에 참여했다. 해당 논문을 통해 GoogLeNet의 구조와 특징을 알아보고 VGGNet과의 차별점을 알아보고자 한다. Introduction지난 3년간(2012~2015) CNN 분야 놀라운 속도로 발전이는 하드웨어 발전, 더 큰 데이터세트 뿐만 아니라 새로운 알고리즘에 대한 아이디어의 결과GoogLeNet은 AlexNet보다 12배 적은 매개변수 사용, but 더 정확(딥 아키텍처와 고전적인 컴퓨터비전의 시너지효과)GoogLeNet은 순수한 학문적 호기심을 넘어 알고리즘의 효율성(전력 및 메모리 사용량) 중요시 여김 이를 통해 Mobile 및 Embedded 환경에 적.. 2024. 1. 23.
[D&A] VGG 논문 리뷰 VGGNet은 ILSVRC 2014 대회에서 2등을 차지한 CNN 모델로 네트워크의 깊이가 모델의 정확도 향상에 중요한 역할을 한다는 것을 보여줬다. VGGNet의 주요 특징은 아래와 같다.3X3 크기의 Conv 필터 고정적으로 사용16~19개 weight layers 사용(네트워크 깊이)Architecture1) Input data는 고정된 크기의 224 x 224 RGB 이미지유일한 사전 처리 작업은 train set에서 평균 RGB 값을 각 픽셀에서 빼는 것2) 3x3 크기의 Conv 필터 고정적으로 사용왼쪽/오른쪽, 위/아래, 중앙의 개념을 포착할 수 있는 가장 작은 크기stride= 1, padding= 11x1 Conv 필터도 사용 -> layer 증가에 따른 비선형 함수 사용 빈도도 증가로.. 2024. 1. 21.
[모두를 위한 딥러닝 시즌2] lab 10-5. Advanced CNN(VGG) VGG 기초CIFAR-10 데이터에 VGG 모델 적용 2024. 1. 21.
[밑시딥2] Chapter 2. 자연어와 단어의 분산 표현 자연어 처리란자연어 : 우리가 평소에 쓰는 말(부드러운 언어)인공어: 프로그래밍 언어, 마크업 언어 등(딱딱한 언어)자연어 처리 : 우리가 평소에 쓰는 말(자연어)을 컴퓨터에게 이해시키기 위한 기술단어의 의미단어 : 의미의 최소 단위자연어를 컴퓨터에게 이해시키는 데는 무엇보다 '단어의 의미'를 이해시키는 게 중요   1. 시소러스를 활용한 기법   2. 통계 기반 기법   3. 추론 기반 기법 시소러스자연어 처리에서 일반적인 사전 아니라 시소러스 형태의 사전 애용 (WordNet이 가장 유명)시소러스: 유의어 사전으로, '뜻이 같은 단어(동의어)' 나 '뜻이 비슷한 단어(유의어)'가 한 그룹으로 분류또한, 자연어 처리에 이용되는 시소러스는 단어 사이의 '상위와 하위' 혹은 '전체와 부분' 등 더 세세한 .. 2024. 1. 20.