전체 글76 [X:AI] GPT-1 논문 리뷰 Improving Language Understanding by Generative Pre-Training논문 원본 : https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf Abstract자연어 이해(NLU)는 텍스트 함의(textual entailment), 질문 응답(question answering), 의미 유사도 평가(semantic similarity assessment), 문서 분류(document classification) 등 다양한 작업을 포함기존에는 이런 작업을 수행하려면, 각 작업마다 특별히 설계된 모델이 필요하지만 문제는, 그런 모델을 훈련하려면 라벨이 있는 데이터가 필요한데, 이런 데이터가 부족하다는 점그래.. 2024. 2. 11. [X:AI] Transformer 논문 리뷰 논문 원본 : https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org Abstract지배적인 시퀀스 변환 모델은 인코더와 디코더를 포함하는 RNN 또는 CNN 신경망을 기반으로 함최고의 성.. 2024. 2. 10. [X:AI] Attention 논문 리뷰 논문 원본 : https://arxiv.org/abs/1409.0473 Neural Machine Translation by Jointly Learning to Align and TranslateNeural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical machine translation, the neural machine translation aims at building a single neural network that can be jointly tuned to maximize the traarxiv.org Abstract신경 기계 번역 (Neur.. 2024. 2. 4. [밑시딥2] Chapter 8. 어텐션 seq2seq 문제점Encoder는 아무리 긴 문장이라도 고정 길이의 벡터로 변환 Encoder 개선각 시간의 은닉 상태 벡터를 모두 이용하면 입력된 단어와 같은 수의 벡터를 얻을 수 있음'하나의 고정 길이 벡터'라는 제약으로부터 해방 (입력 문장의 길이에 비례한 정보를 인코딩할 수 O)시각별 LSTM 계층의 은닉 상태 백터는 직전에 입력된 단어의 '성분'이 많이 들어간 벡터이렇게 생각하면, Encoder가 출력하는 hs행렬은 각 단어에 해당하는 벡터들의 집합 Decoder 개선 ①목표: '도착어 단어'와 대응 관계에 있는 '출발어 단어'의 정보를 골라내고 그 정보를 이용하여 번역 수행 => 다시 말해, 필요한 정보에만 주목하여 그 정보로부터 시계열 변환을 수행하는 것 => 이 구조를 'Attention.. 2024. 2. 3. [X:AI] Seq2Seq 논문 리뷰 논문 원본 : https://arxiv.org/abs/1409.3215 Sequence to Sequence Learning with Neural NetworksDeep Neural Networks (DNNs) are powerful models that have achieved excellent performance on difficult learning tasks. Although DNNs work well whenever large labeled training sets are available, they cannot be used to map sequences to sequences. In this paparxiv.org RNN, LSTM,Seq2Seq 자료 AbstractDNN은 레이블이 지.. 2024. 2. 2. [밑시딥2] Chapter 7. RNN을 사용한 문장 생성 RNN을 사용한 문장 생성언어 모델은 지금까지 주어진 단어들에서 다음에 출현하는 단어의 확률 분포 출력해당 분포를 기초로 2가지 방법을 통해 다음 단어 생성 1) 결정적 알고리즘확률이 가장 높은 단어 선택2) 확률적 알고리즘각 후보 단어의 확률에 맞게 선택따라서 선택되는 단어는 실행할 때마다 달라짐 seq2seq시계열 데이터를 다른 시계열 데이터로 변환하는 모델Encoder-Decoder 모델Encoder는 RNN을 이용해 시계열 데이터를 h라는 은닉 상태 벡터로 변환LSTM 뿐만 아니라 '단순한 RNN'이나 GRU 등도 물론 이용 가능마지막 은닉 상태 h에 입력 문장(출발어)을 번역하는 데 필요한 정보가 인코딩중요한 점은 LSTM의 은닉 상태 h는 고정 길이 벡터라는 사실 Decoder에서는 LSTM .. 2024. 2. 2. 이전 1 ··· 6 7 8 9 10 11 12 13 다음