본문 바로가기

Attention5

[논문 리뷰] (다시 읽어본) Attention Is All You Need (NIPS 2017) NLP에 있어서 정말 큰 변화를 가져온 Transformer에 대한 논문이다. 과거에 논문을 읽어보고 나름대로 정리해본 글(여기)이 있는데, 아직 안읽어봤다면 읽어보지 않는 것을 추천한다. 최근에 어느 Github에서 제공한 Transformer의 전체적인 동작 구조와 코드를 이해하기 쉽게 정리한 것을 보고 내 나름대로 정말 간단하게 정리한 글도 있긴한데, 그닥 도음이 될 것 같지는 않다. (글, Github 은 한 번 둘러보는 것을 추천한다.) 논문의 원본은 여기에서 확인할 수 있다. LSTM과 GRU 와 같은 recurrent neural network는 sequence modeling 분야 (대표적으로 Language modeling, machine translation emd) 에서 대부분의 st.. 2020. 12. 3.
정말 간단한 Transformer의 구조/동작 과정 정리 Transformer는 기존의 RNN 류(LSTM, GUR 등)의 recurrence 를 제거하고 오직 linear layers, attention, normalization 만으로 구성된 모델이다. Sequence-to-sequence 모델과 비슷하게 encoder와 decoder로 구성되어 있다. 한 부분씩 보면서 어떤 순서대로 동작하는지 확인해보자. Transformer를 처음으로 제안한 논문 "Attention is all you need" 의 리뷰는 여기에서 확인해볼 수 있다. 너무 오래전에 읽고 정리한 내용이라 이번 포스트 이후에 다시 읽어보고 다시 처음부터 정리해봐야겠다. # Encoder 인코더에서는 입력으로 제공된 sequence $ X = (x_1, x_2, ..., x_n) $ 에 대.. 2020. 12. 1.
[CS224N] Assignment 4 (풀이 중) 이번 과제는 크게 2가지 파트 : RNN을 이용한 Neural Machine Translation과 NMT 시스템의 분석으로 이루어진다. # Neural Machine Translation with RNNs Neural Machine Translation(NMT)는 source language에서 target language로 변환을 하는 task 이다. (이번 과제에서는 스페인어에서 영어로 변환한다.) 이번 과제에서는 attention을 활용한 Seq2seq 모델을 사용할 것이다. Seq2seq 모델은 bidirectional encoder와 unidirectional decoder로 구성된다. 길이 $ m $ 의 입력을 embedding matrix를 통해 $ e $ 크기의 word embedding.. 2020. 11. 10.
[논문 리뷰] Neural machine translation by jointly learning to align and translate (2014 NIPS) Attention 기법을 사용해서 Neural Machine Translation의 성능을 향상시킨 내용이다. 논문의 원본은 여기서 확인할 수 있다. 과거의 Machine Translation은 phrase based로서, 다양한 sub-component로 구성되어 있었고, 각 component는 각각 학습되고 구성되었다. 이후에는 하나의 큰 neural network를 이용한 translation 방법들이 제안되었다. Neural Machine Translation은 대부분 encoder-decoder 형식으로 이루어져 있다. Encoder의 경우, 입력 문장을 고정 길이 벡터로 변환시키고, decoder는 해당 벡터를 이용해서 번역 결과를 생성해낸다. 해당 모델을 입력으로 제공된 Input sente.. 2020. 10. 26.
[논문 리뷰] Attention Is All You Need 이 포스트부터 읽어보세요. 2017년 NIPS에서 Google이 소개한 Transformer에 대한 논문이다. 논문 원본은 여기에서 볼 수 있다. 기존의 CNN과 RNN에서 벗어난 새로운 구조를 제안한다. # Introduction RNN, 특히 LSTM, GRU는 sequence modeling, transduction problem(Language Modeling, Machine Translation, etc.) 등의 분야에서 SOTA의 성능을 꾸준히 제공하고 있다. Recurrent 한 모델들은 특정 step에서 이전 hidden state $ h_{t-1} $ 를 바탕으로 $ h_t $ 를 생성한다. 이렇게 순차적으로 처리하는 특성 때문에 병렬 처리에 어려움이 있었다. 다양한 방법으로 이러한 문제.. 2020. 8. 31.