본문 바로가기

transformer4

[논문 리뷰] (다시 읽어본) Attention Is All You Need (NIPS 2017) NLP에 있어서 정말 큰 변화를 가져온 Transformer에 대한 논문이다. 과거에 논문을 읽어보고 나름대로 정리해본 글(여기)이 있는데, 아직 안읽어봤다면 읽어보지 않는 것을 추천한다. 최근에 어느 Github에서 제공한 Transformer의 전체적인 동작 구조와 코드를 이해하기 쉽게 정리한 것을 보고 내 나름대로 정말 간단하게 정리한 글도 있긴한데, 그닥 도음이 될 것 같지는 않다. (글, Github 은 한 번 둘러보는 것을 추천한다.) 논문의 원본은 여기에서 확인할 수 있다. LSTM과 GRU 와 같은 recurrent neural network는 sequence modeling 분야 (대표적으로 Language modeling, machine translation emd) 에서 대부분의 st.. 2020. 12. 3.
정말 간단한 Transformer의 구조/동작 과정 정리 Transformer는 기존의 RNN 류(LSTM, GUR 등)의 recurrence 를 제거하고 오직 linear layers, attention, normalization 만으로 구성된 모델이다. Sequence-to-sequence 모델과 비슷하게 encoder와 decoder로 구성되어 있다. 한 부분씩 보면서 어떤 순서대로 동작하는지 확인해보자. Transformer를 처음으로 제안한 논문 "Attention is all you need" 의 리뷰는 여기에서 확인해볼 수 있다. 너무 오래전에 읽고 정리한 내용이라 이번 포스트 이후에 다시 읽어보고 다시 처음부터 정리해봐야겠다. # Encoder 인코더에서는 입력으로 제공된 sequence $ X = (x_1, x_2, ..., x_n) $ 에 대.. 2020. 12. 1.
[논문 리뷰] TransferTransfo: A Transfer Learning Approach for Neural Network Based Conversational Agents (NIPS 2019) Dialogue generation을 통해 사람과 대화는 나누는 Conversational agent에 대한 논문이다. Transformer와 전이 학습(Transfer learning)을 통해서 모델을 구성한다. 원본 논문의 원본은 여기에서 볼 수 있고, Transformer에 대한 글은 여기에서 볼 수 있다. Huggingface에서 제공하는 TransferTransfo의 코드는 여기 GitHub에서 확인할 수 있다. Non-goal-oriented dialogue system(chatbots, open domain dialogue generation)은 다양한 NLP system에서 사용될 수 있는 시스템이다. 최근에 많은 데이터셋의 사용이 가능해지면서 다양한 conversational model에.. 2020. 11. 12.
[논문 리뷰] Attention Is All You Need 이 포스트부터 읽어보세요. 2017년 NIPS에서 Google이 소개한 Transformer에 대한 논문이다. 논문 원본은 여기에서 볼 수 있다. 기존의 CNN과 RNN에서 벗어난 새로운 구조를 제안한다. # Introduction RNN, 특히 LSTM, GRU는 sequence modeling, transduction problem(Language Modeling, Machine Translation, etc.) 등의 분야에서 SOTA의 성능을 꾸준히 제공하고 있다. Recurrent 한 모델들은 특정 step에서 이전 hidden state $ h_{t-1} $ 를 바탕으로 $ h_t $ 를 생성한다. 이렇게 순차적으로 처리하는 특성 때문에 병렬 처리에 어려움이 있었다. 다양한 방법으로 이러한 문제.. 2020. 8. 31.