본문 바로가기

Attention4

[X:AI] BERT 논문 리뷰 논문 원본 : https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlaarxiv.org 1. Abstract.. 2024. 2. 15.
[X:AI] Transformer 논문 리뷰 논문 원본 : https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org  Abstract지배적인 시퀀스 변환 모델은 인코더와 디코더를 포함하는 RNN 또는 CNN 신경망을 기반으로 함최고의 성.. 2024. 2. 10.
[X:AI] Attention 논문 리뷰 논문 원본 : https://arxiv.org/abs/1409.0473 Neural Machine Translation by Jointly Learning to Align and TranslateNeural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical machine translation, the neural machine translation aims at building a single neural network that can be jointly tuned to maximize the traarxiv.org  Abstract신경 기계 번역 (Neur.. 2024. 2. 4.
[밑시딥2] Chapter 8. 어텐션 seq2seq 문제점Encoder는 아무리 긴 문장이라도 고정 길이의 벡터로 변환 Encoder 개선각 시간의 은닉 상태 벡터를 모두 이용하면 입력된 단어와 같은 수의 벡터를 얻을 수 있음'하나의 고정 길이 벡터'라는 제약으로부터 해방 (입력 문장의 길이에 비례한 정보를 인코딩할 수 O)시각별 LSTM 계층의 은닉 상태 백터는 직전에 입력된 단어의 '성분'이 많이 들어간 벡터이렇게 생각하면, Encoder가 출력하는 hs행렬은 각 단어에 해당하는 벡터들의 집합 Decoder 개선 ①목표: '도착어 단어'와 대응 관계에 있는 '출발어 단어'의 정보를 골라내고 그 정보를 이용하여 번역 수행 => 다시 말해, 필요한 정보에만 주목하여 그 정보로부터 시계열 변환을 수행하는 것 => 이 구조를 'Attention.. 2024. 2. 3.