대학원 이야기/논문 리뷰30 [논문 리뷰] Sequence to Sequence Learning with Neural Networks (2014 NIPS) LSTM을 이용한 sequence to sequence 모델에 대한 논문이다. 논문의 원본은 여기에서 볼 수 있다. 기존 Deep Neural Network(DNN) 은 speech recognition, visual object recognition 등 다양한 분야에서 뛰어난 성능을 제공한다. 하지만, DNN은 크기(차원)이 고정된 입력에 대해서만 데이터를 처리할 수 있다는 단점이 있다. 대부분의 경우 입력의 크기를 미리 알고 있을 수 없기 때문에 DNN의 단점은 더 치명적일 수 있다. 입력의 크기를 알 수 없는 sequential problem 들은 speech recognition, machine translation 등이 있다. DNN의 이러한 단점을 보완하기 위해서 이번 논문에서는 Long Sh.. 2020. 10. 22. [논문 리뷰] Semi-supervised sequence tagging with bidirectional language models (수정 중) (2017 ACL) TagLM에 대한 논문이다. 논문의 원본은 여기서 볼 수 있다. # Introduction Pre-trained embedding (word2vec, GloVe 등)은 다양한 NLP 분야에서 볼 수 있다. 다양한 연구들이 pre-trained embedding이 단어의 의미와 문법적인 특징들을 학습하는데 유용하다는 것을 나타냈다. 이러한 pre-trained embedding을 다양한 NLP task에 적용시킴으로서 성능을 향상시킬 수 있었다. 하지만, 대부분의 NLP task에서는 그저 단어의 의미만 필요한 것이 아니라, 해당 단어가 문맥에서 나타내는 의미가 필요하다. 당시 SOTA 모델의 경우, bidirectional recurrent neural network(RNN)을 이용해서 문맥을 고려한 c.. 2020. 10. 16. [논문 리뷰] Learned in Translation: Contextualized Word Vectors (2017 NIPS) Pre-trained 된 language model을 사용하는데는 크게 2가지 방식이 있다. Fine-tuning 을 기반으로 하는 BERT, GPT 와 같은 방식과, Feature-based 방식인 ELMo 와 CoVe 등이 있다. 이번 논문에서는 CoVe 에 대한 내용이다. 논문의 원본은 여기에서 볼 수 있다. # Introduction 컴퓨터 비젼 분야를 보면, CNN을 ImageNet의 데이터로 사전 학습을 하고 사용하는 것이 일반적인 초기화 방법으로 알려져 있다. 이러한 초기화 방법은 관련된 다양한 task를 수행하는데 있어서 성능 향상을 제공했다. NLP의 경우, word2vec, GloVe와 같은 pre-trained representation이 일반적인 초기화 방법이었다. CNN에서 Ima.. 2020. 10. 11. [논문 리뷰] Improving Language Understanding by Generative Pre-Training OpenAI 에서 발표한 GPT에 대한 논문이다. 해당 논문의 원본은 여기에서 볼 수 있다. # Introduction 다양한 딥러닝 모델을은 레이블링 된 데이터를 이용해서 학습을 진행하지만, 레이블된 데이터를 구하기 힘들다는 문제가 존재한다. 그렇기 때문에, 레이블링 하지 않은 데이터를 이용해서 다양한 특성들을 학습할 수 있다. 이렇게 학습한 결과를 추가적인 supervision을 통해 성능을 향상시킬 수 있다. 대표적인 pre-trained word embedding으로는 word2vec, GloVe 등이 있다. Unlabeled text를 통해서 단어 단위의 정보를 학습하는 것은 크게 2가지 이유로 도전적이다. 어떠한 objective 를 이용해야 결과로 제공된 데이터를 transfer 해서 사용했.. 2020. 10. 9. [논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding (NAACL 2019) 2019년 구글에서 발표한 BERT에 대한 논문이다. 논문의 원본은 여기서 볼 수 있다. # Introduction Pre-trained Language Model은 자연어 처리 task의 성능을 향상시킬 수 있다. PLM(pre-trained language model)을 적용하는 방법은 현재 크게 2가지로 구분된다 : feature-based, fine-tuning. Feature-based 방식의 경우, (대표적으로 ELMo) 특정한 task에 알맞는 구조를 보유하고, pre-trained representation을 특성으로 추가해서 사용하게 된다. 반면에 fine-tuning 방식의 경우 (대표적으로 GPT), 특정 task에 특화된 파라미터를 최소화 하고, 사전 학습된 파라미터를 fine-tu.. 2020. 10. 5. [논문 리뷰] Deep contextualized word representations (2018 NAACL) 2018년에 발표된 해당 논문은 새로운 단어 임베딩 방법을 제안한다. ELMo 는 Embeddings from Language Model의 약자로, pre-trained language model 을 사용한다. 해당 논문의 원본은 여기서 조회할 수 있다. # Abstract 해당 논문은 새로운 방식의 deep-contextualized 단어 임베딩을 제안한다. 해당 임베딩은 각 단어의 다양한 특징과 의미를 표현할 수 있게 한다. Deep bidirectional language model (biLM)의 중간 state 들을 사용해서 단어 임베딩을 생성하게 된다. 이러한 방식은 다른 다양한 모델에 쉽게 결합해서 사용할 수 있는 장점이 있다. 결과적으로 6개의 NLP task에서 state-of-the-ar.. 2020. 10. 3. [논문 리뷰] Attention Is All You Need 이 포스트부터 읽어보세요. 2017년 NIPS에서 Google이 소개한 Transformer에 대한 논문이다. 논문 원본은 여기에서 볼 수 있다. 기존의 CNN과 RNN에서 벗어난 새로운 구조를 제안한다. # Introduction RNN, 특히 LSTM, GRU는 sequence modeling, transduction problem(Language Modeling, Machine Translation, etc.) 등의 분야에서 SOTA의 성능을 꾸준히 제공하고 있다. Recurrent 한 모델들은 특정 step에서 이전 hidden state $ h_{t-1} $ 를 바탕으로 $ h_t $ 를 생성한다. 이렇게 순차적으로 처리하는 특성 때문에 병렬 처리에 어려움이 있었다. 다양한 방법으로 이러한 문제.. 2020. 8. 31. [논문 리뷰] GloVe: Global Vectors for Word Representation (수정 중) (2014 EMNLP) GloVe 에 대한 논문이다. 논문의 원본은 여기에서 볼 수 있다. # Introduction 벡터 공간을 구성하는 단어 벡터는 다양한 분야에서 사용된 수 있다. 대부분의 단어 벡터들을 벡터들 사이의 거리 또는 각도를 이용해서 벡터의 성능을 평가한다. 최근에는 이러한 방법을 벗어나, 각 차원의 차이를 이용한 평가 방식이 제시되었다. 예를 들어, "king" - "queen" = "man" - woman" 과 같은 경우이다. 단어 벡터를 학습하는 방법은 크게 두 가지로 구분된다. 첫 번째로는 전체적인 통계 정보를 사용하는 Latent Semantic Analysis(LSA) 와 같은 방법이 있다. 해당 방식은 전체적인 통계를 효과적으로 사용할 수 있다는 장점이 있지만, word analogy에서는 성능을 .. 2020. 8. 26. [논문 리뷰] A neural probabilistic language model (수정 중) Word2vec 논문을 읽다가 비교 대상으로 나온 Neural Network Language Model (NNLM)을 다룬 논문이다. 논문의 원본은 여기에서 볼 수 있다. # 들어가기 전 논문을 직접 읽어보기 전에 먼저 어떤 내용인지, 공부한 내용을 기반으로 정리해보겠다. 이런거 필요 없이 논문 내용을 보고 싶다면 다음 섹션부터 읽으면 된다. Neural Probabilistic Language Model (NPLM) 은 Distributed Representation을 사용하는 방식 중 하나이다. 기존에는 대부분 one-hot-encoding을 사용했다. One-hot-encoding에 대해서 간단하게 설명하자면, 전체 Vocabulary의 각 단어에 대해서 자신만의 인덱스를 부여한다. 각 단어의 wo.. 2020. 8. 22. 이전 1 2 3 4 다음