본문 바로가기

sequence to sequence3

[논문 리뷰] Neural machine translation by jointly learning to align and translate (2014 NIPS) Attention 기법을 사용해서 Neural Machine Translation의 성능을 향상시킨 내용이다. 논문의 원본은 여기서 확인할 수 있다. 과거의 Machine Translation은 phrase based로서, 다양한 sub-component로 구성되어 있었고, 각 component는 각각 학습되고 구성되었다. 이후에는 하나의 큰 neural network를 이용한 translation 방법들이 제안되었다. Neural Machine Translation은 대부분 encoder-decoder 형식으로 이루어져 있다. Encoder의 경우, 입력 문장을 고정 길이 벡터로 변환시키고, decoder는 해당 벡터를 이용해서 번역 결과를 생성해낸다. 해당 모델을 입력으로 제공된 Input sente.. 2020. 10. 26.
[논문 리뷰] Sequence to Sequence Learning with Neural Networks (2014 NIPS) LSTM을 이용한 sequence to sequence 모델에 대한 논문이다. 논문의 원본은 여기에서 볼 수 있다. 기존 Deep Neural Network(DNN) 은 speech recognition, visual object recognition 등 다양한 분야에서 뛰어난 성능을 제공한다. 하지만, DNN은 크기(차원)이 고정된 입력에 대해서만 데이터를 처리할 수 있다는 단점이 있다. 대부분의 경우 입력의 크기를 미리 알고 있을 수 없기 때문에 DNN의 단점은 더 치명적일 수 있다. 입력의 크기를 알 수 없는 sequential problem 들은 speech recognition, machine translation 등이 있다. DNN의 이러한 단점을 보완하기 위해서 이번 논문에서는 Long Sh.. 2020. 10. 22.
[논문 리뷰] Attention Is All You Need 이 포스트부터 읽어보세요. 2017년 NIPS에서 Google이 소개한 Transformer에 대한 논문이다. 논문 원본은 여기에서 볼 수 있다. 기존의 CNN과 RNN에서 벗어난 새로운 구조를 제안한다. # Introduction RNN, 특히 LSTM, GRU는 sequence modeling, transduction problem(Language Modeling, Machine Translation, etc.) 등의 분야에서 SOTA의 성능을 꾸준히 제공하고 있다. Recurrent 한 모델들은 특정 step에서 이전 hidden state $ h_{t-1} $ 를 바탕으로 $ h_t $ 를 생성한다. 이렇게 순차적으로 처리하는 특성 때문에 병렬 처리에 어려움이 있었다. 다양한 방법으로 이러한 문제.. 2020. 8. 31.