전체 글85 [논문 리뷰] (다시 읽어본) Attention Is All You Need (NIPS 2017) NLP에 있어서 정말 큰 변화를 가져온 Transformer에 대한 논문이다. 과거에 논문을 읽어보고 나름대로 정리해본 글(여기)이 있는데, 아직 안읽어봤다면 읽어보지 않는 것을 추천한다. 최근에 어느 Github에서 제공한 Transformer의 전체적인 동작 구조와 코드를 이해하기 쉽게 정리한 것을 보고 내 나름대로 정말 간단하게 정리한 글도 있긴한데, 그닥 도음이 될 것 같지는 않다. (글, Github 은 한 번 둘러보는 것을 추천한다.) 논문의 원본은 여기에서 확인할 수 있다. LSTM과 GRU 와 같은 recurrent neural network는 sequence modeling 분야 (대표적으로 Language modeling, machine translation emd) 에서 대부분의 st.. 2020. 12. 3. 정말 간단한 Transformer의 구조/동작 과정 정리 Transformer는 기존의 RNN 류(LSTM, GUR 등)의 recurrence 를 제거하고 오직 linear layers, attention, normalization 만으로 구성된 모델이다. Sequence-to-sequence 모델과 비슷하게 encoder와 decoder로 구성되어 있다. 한 부분씩 보면서 어떤 순서대로 동작하는지 확인해보자. Transformer를 처음으로 제안한 논문 "Attention is all you need" 의 리뷰는 여기에서 확인해볼 수 있다. 너무 오래전에 읽고 정리한 내용이라 이번 포스트 이후에 다시 읽어보고 다시 처음부터 정리해봐야겠다. # Encoder 인코더에서는 입력으로 제공된 sequence $ X = (x_1, x_2, ..., x_n) $ 에 대.. 2020. 12. 1. [논문 리뷰] Listening between the Lines: Learning Personal Attributes from Conversations (WWW 2019) 사람들의 일상 대화 속에서 사람의 특징(나이, 성별 등) 을 학습하는 방법에 대한 논문이다. 논문에서 사용한 모델의 코드는 여기, 데이터셋은 여기에서 확인할 수 있다. 논문의 원본은 여기에서 볼 수 있다. Dialogue generation task에 있어서 다양한 challange 들이 존재하지만, personalized conversation 을 생성하는 방법 또한 큰 도전으로 남아있다. 실제 사람과 의미있는 대화를 주고받기 위해서는 현재 대화를 하고 있는 사람의 특징과 배경을 그 사람이 하는 말을 통해서 유추해낼 수 있어야 한다. [예시-1]을 보면 'brekky' 라는 단어를 통해서 현재 대화하고 있는 사람(H)이 호주에 있다는 것을 유추할 수 있다. 하지만, 다음 대화에서 사람(H)이 아이들과 .. 2020. 11. 25. [논문 리뷰] You Impress Me: Dialogue Generation via Mutual Persona Perception (수정 중) (ACL 2020) 논문 원본은 여기에서 확인할 수 있다. # 참고 논문 Deep reinforcement learning for dialogue generation. Personalizing dialogue agents: I have a dog, do you have pets too? A persona-based neural conversation model. : speaker 에 대한 embedding 을 사용하는 방법 (리뷰) Training millions of personalized dialogue agents.: PERSONA-CHAT dataset + Reddit dataset TransferTransfo: A transfer learning approach for neural network based conv.. 2020. 11. 23. [논문 리뷰] A Persona-Based Neural Conversation Model (ACL 2016) Persona를 유지하면서 대화를 이어나갈 수 있는, persona-based neural conversational model에 대해서 다룬다. 논문의 원본은 여기에서 볼 수 있다. 기존의 seq2seq 모델과 유사하지만, decoder에서 한 사람의 persona를 나타내는 speaker embedding 과 addressee embedding 을 함께 입력으로 사용한다. 그러므로 이전 hidden state, 이전 timestep의 예상 결과, 그리고 speaker embedding 이 한 timestep의 입력으로 제공된다. Speaker embedding을 사용함으로서 비슷한 persona 를 보유하는 사람은 가까이에 위치하게 되는데, 이러한 방식은 학습 과정에서 배우지 않은 질문들에 대해서도 .. 2020. 11. 19. [논문 리뷰] A Neural Network Approach to Context-Sensitive Generation of Conversational Responses (수정 중) (NAACL 2015) Open-domain conversational system을 만들기 위한 다양한 노력들이 있었다. 대표적인 방법으로는 machine translation 을 사용해서, 다음 제공될 대화 내용을 "번역(translate)" 해서 사용자에 제공하는 방식이 있다. 하지만 이러한 방식은 문맥으로 고려하는(context sentitive) 대답을 제공하지 못한다는 단점이 있다. 문맥을 고려하기 위해서는 이전 대화 내용들을 참고해서 문맥에 맞는 응답을 생성해야 한다. 이번 논문에서는 단어들의 임베딩을 이용해서 문장의 문법과 의미를 압축해서 나타내는 방식을 사용한 context sensitive response generation에 대해서 다룬다. 이번 논문에서는 2개의 Recurrent Neural Network.. 2020. 11. 18. [논문 리뷰] Personalizing Dialogue Agents: I have a dog, do you have pets too? (수정 중) (ACL 2018) 다른 논문 (사전 지식) 좀 읽어보고 와서 다시 봐야할ㄷㅅ... # 참고 논문 A neural network approach to context-sensitive generation of conversational responses. : information retrieval model (baseline, 리뷰) Starspace: Embed all the things! : supervised embedding model (baseline) Generative deep neural networks for dialogue: A short review. A neural conversational model. : seq2seq 기반 모델 (1) (리뷰) A persona-based neural conversa.. 2020. 11. 14. [논문 리뷰] A Neural Conversational Model (ICML 2015) 2015년 구글에서 제안한 Seq2seq 구조를 사용해서 dialogue generation을 구현하는 논문이다. 논문의 원본은 여기에서 볼 수 있다. Conversational modeling은 NLP 에서 중요한 task 중 하나이다. 해당 분야에 대한 다양한 연구들이 있었지만, 아직까지는 특정한 domain에 한정적이거나, 규칙을 따르는 방식들이 대부분이다. 이번 논문에서는 sequence-to-sequence 모델을 기반으로, 대화 내의 과거 문장들을 기반으로 다음 문장(답변)을 예측하는 모델을 제안한다. 과거에 Conversational agent를 만들기 위해서는 다양하고 복잡한 subcomponent로 구성된 pipeline을 사용해야 했는데, 해당 모델의 장점은 end-to-end로 학습이.. 2020. 11. 13. [논문 리뷰] TransferTransfo: A Transfer Learning Approach for Neural Network Based Conversational Agents (NIPS 2019) Dialogue generation을 통해 사람과 대화는 나누는 Conversational agent에 대한 논문이다. Transformer와 전이 학습(Transfer learning)을 통해서 모델을 구성한다. 원본 논문의 원본은 여기에서 볼 수 있고, Transformer에 대한 글은 여기에서 볼 수 있다. Huggingface에서 제공하는 TransferTransfo의 코드는 여기 GitHub에서 확인할 수 있다. Non-goal-oriented dialogue system(chatbots, open domain dialogue generation)은 다양한 NLP system에서 사용될 수 있는 시스템이다. 최근에 많은 데이터셋의 사용이 가능해지면서 다양한 conversational model에.. 2020. 11. 12. 이전 1 2 3 4 5 6 7 ··· 10 다음