본문 바로가기

seq2seq4

[논문 리뷰] A Persona-Based Neural Conversation Model (ACL 2016) Persona를 유지하면서 대화를 이어나갈 수 있는, persona-based neural conversational model에 대해서 다룬다. 논문의 원본은 여기에서 볼 수 있다. 기존의 seq2seq 모델과 유사하지만, decoder에서 한 사람의 persona를 나타내는 speaker embedding 과 addressee embedding 을 함께 입력으로 사용한다. 그러므로 이전 hidden state, 이전 timestep의 예상 결과, 그리고 speaker embedding 이 한 timestep의 입력으로 제공된다. Speaker embedding을 사용함으로서 비슷한 persona 를 보유하는 사람은 가까이에 위치하게 되는데, 이러한 방식은 학습 과정에서 배우지 않은 질문들에 대해서도 .. 2020. 11. 19.
[CS224N] Assignment 4 (풀이 중) 이번 과제는 크게 2가지 파트 : RNN을 이용한 Neural Machine Translation과 NMT 시스템의 분석으로 이루어진다. # Neural Machine Translation with RNNs Neural Machine Translation(NMT)는 source language에서 target language로 변환을 하는 task 이다. (이번 과제에서는 스페인어에서 영어로 변환한다.) 이번 과제에서는 attention을 활용한 Seq2seq 모델을 사용할 것이다. Seq2seq 모델은 bidirectional encoder와 unidirectional decoder로 구성된다. 길이 $ m $ 의 입력을 embedding matrix를 통해 $ e $ 크기의 word embedding.. 2020. 11. 10.
[논문 리뷰] Sequence to Sequence Learning with Neural Networks (2014 NIPS) LSTM을 이용한 sequence to sequence 모델에 대한 논문이다. 논문의 원본은 여기에서 볼 수 있다. 기존 Deep Neural Network(DNN) 은 speech recognition, visual object recognition 등 다양한 분야에서 뛰어난 성능을 제공한다. 하지만, DNN은 크기(차원)이 고정된 입력에 대해서만 데이터를 처리할 수 있다는 단점이 있다. 대부분의 경우 입력의 크기를 미리 알고 있을 수 없기 때문에 DNN의 단점은 더 치명적일 수 있다. 입력의 크기를 알 수 없는 sequential problem 들은 speech recognition, machine translation 등이 있다. DNN의 이러한 단점을 보완하기 위해서 이번 논문에서는 Long Sh.. 2020. 10. 22.
[논문 리뷰] Attention Is All You Need 이 포스트부터 읽어보세요. 2017년 NIPS에서 Google이 소개한 Transformer에 대한 논문이다. 논문 원본은 여기에서 볼 수 있다. 기존의 CNN과 RNN에서 벗어난 새로운 구조를 제안한다. # Introduction RNN, 특히 LSTM, GRU는 sequence modeling, transduction problem(Language Modeling, Machine Translation, etc.) 등의 분야에서 SOTA의 성능을 꾸준히 제공하고 있다. Recurrent 한 모델들은 특정 step에서 이전 hidden state $ h_{t-1} $ 를 바탕으로 $ h_t $ 를 생성한다. 이렇게 순차적으로 처리하는 특성 때문에 병렬 처리에 어려움이 있었다. 다양한 방법으로 이러한 문제.. 2020. 8. 31.