분류 전체보기85 [논문 리뷰] BLEU: a Method for Automatic Evaluation of Machine Translation (2002 ACL) Machine Translation task에서 많이 사용하는 automatic evaluation 방식이다. 해당 논문의 원본은 여기에서 볼 수 있다. 논문의 내용을 다루기 전에 precision, recall, accuracy 에 대한 사전 지식을 가지고 있으면 이해하기 훨씬 편하다. Machine Translation의 결과를 사람이 직접 평가하는 Human evaluation은 정확하지만 비용이 너무 많이 든다는 단점이 있다. 또한, 사람이 직접 평가하기 때문에, 평가하려는 언어에 대한 제한이 발생하게 된다. 마지막으로, 모든 결과를 평가하는데 너무 오랜 시간이 걸린다는 단점이 있는데, 빠르게 기술이 발전하고 변화하는 상황에서 평가에 이렇게 오랜 시간이 걸리는 것은 큰 걸림돌이 될 수 있다. 이러.. 2020. 11. 11. [CS224N] Assignment 4 (풀이 중) 이번 과제는 크게 2가지 파트 : RNN을 이용한 Neural Machine Translation과 NMT 시스템의 분석으로 이루어진다. # Neural Machine Translation with RNNs Neural Machine Translation(NMT)는 source language에서 target language로 변환을 하는 task 이다. (이번 과제에서는 스페인어에서 영어로 변환한다.) 이번 과제에서는 attention을 활용한 Seq2seq 모델을 사용할 것이다. Seq2seq 모델은 bidirectional encoder와 unidirectional decoder로 구성된다. 길이 m 의 입력을 embedding matrix를 통해 e 크기의 word embedding.. 2020. 11. 10. [CS224N] Assignment 3 이번 과제에서는 neural dependency parser를 만들어 본다. # 문제 문제 해석 : 우리가 기존에 사용하던 stochastic gradient descent 의 경우 다음과 같은 식을 만족한다. 이 때, J 는 loss function 이고 α 는 learning rate 를 의미한다. 우리는 각 loss 에 대한 파라미터의 gradient 값을 learning rate에 곱해서 파라미터 값을 업데이트하는 방식으로 학습을 진행했다. 이번에 새로 다뤄볼 Adam optimizer 의 경우 다음과 같은 식을 만속시키면서 학습을 진행한다. β 값은 0에서 1 사이의 (보통 0.9를 사용한다) 하이퍼파라미터로 사용한다. Adam optimizer가 m을 사용.. 2020. 11. 2. [논문 리뷰] Learning representations by back-propagating errors (1986 Nature) Back-propagation을 통해 신경망을 학습하는 과정에 대한 내용을 다룬다. 논문의 원본은 여기에서 볼 수 있다. 이번 논문에서는 새로운 학습 방법인 back-propagation에 대해서 다룬다. 해당 학습 과정은 반복적으로 뉴런들 사이의 연결 가중치를 조절해서, 신경망의 결과와 실제로 사용자가 기대했던 결과 사이의 오차를 최소화하도록 한다. 이런 학습 과정을 통해서 우리가 볼 수 있는 input/output layer가 아닌 hidden layer 들도 의미 있는 특성을 학습할 수 있고, 원하는 결과를 제공하기 위해 동작할 수 있다. 과거에 Self-organizing Neural Network(NN)를 위한 다양한 시도들이 있었다. 뉴런들 사이의 가중치를 업데이트해서 원하는 task를 수행할.. 2020. 10. 30. [논문 리뷰] Neural machine translation by jointly learning to align and translate (2014 NIPS) Attention 기법을 사용해서 Neural Machine Translation의 성능을 향상시킨 내용이다. 논문의 원본은 여기서 확인할 수 있다. 과거의 Machine Translation은 phrase based로서, 다양한 sub-component로 구성되어 있었고, 각 component는 각각 학습되고 구성되었다. 이후에는 하나의 큰 neural network를 이용한 translation 방법들이 제안되었다. Neural Machine Translation은 대부분 encoder-decoder 형식으로 이루어져 있다. Encoder의 경우, 입력 문장을 고정 길이 벡터로 변환시키고, decoder는 해당 벡터를 이용해서 번역 결과를 생성해낸다. 해당 모델을 입력으로 제공된 Input sente.. 2020. 10. 26. [CS224N] Assignment 2 한 단어(c)는 그 단어의 주위 단어에 의해서 뜻을 유추할 수 있다. [그림-1]을 보면 center word 는 "banking" 이고, 해당 단어를 둘러싸고있는 context word 는 각각 "turning", "into", "crises", "as" 등으로 구성된다. Word2vec에서는 주변 단어 o 와 중간 단어 c 사이의 관계 P(O=o|C=c) 를 계산하려고 한다. 이 방법의 경우는 skip-gram 방식으로, 중간 단어가 주어졌을 때, 주번 단어를 예측하는 방식이다. 다른 방식으로는 Continuous bag-of-words (CBOW)가 있는데, 이 방식의 경우에는 주변 단어에 따라서 중간 단어를 예측하는 방식으로 학습이 진행된다. 해당 Condi.. 2020. 10. 26. [논문 리뷰] Sequence to Sequence Learning with Neural Networks (2014 NIPS) LSTM을 이용한 sequence to sequence 모델에 대한 논문이다. 논문의 원본은 여기에서 볼 수 있다. 기존 Deep Neural Network(DNN) 은 speech recognition, visual object recognition 등 다양한 분야에서 뛰어난 성능을 제공한다. 하지만, DNN은 크기(차원)이 고정된 입력에 대해서만 데이터를 처리할 수 있다는 단점이 있다. 대부분의 경우 입력의 크기를 미리 알고 있을 수 없기 때문에 DNN의 단점은 더 치명적일 수 있다. 입력의 크기를 알 수 없는 sequential problem 들은 speech recognition, machine translation 등이 있다. DNN의 이러한 단점을 보완하기 위해서 이번 논문에서는 Long Sh.. 2020. 10. 22. [논문 리뷰] Semi-supervised sequence tagging with bidirectional language models (수정 중) (2017 ACL) TagLM에 대한 논문이다. 논문의 원본은 여기서 볼 수 있다. # Introduction Pre-trained embedding (word2vec, GloVe 등)은 다양한 NLP 분야에서 볼 수 있다. 다양한 연구들이 pre-trained embedding이 단어의 의미와 문법적인 특징들을 학습하는데 유용하다는 것을 나타냈다. 이러한 pre-trained embedding을 다양한 NLP task에 적용시킴으로서 성능을 향상시킬 수 있었다. 하지만, 대부분의 NLP task에서는 그저 단어의 의미만 필요한 것이 아니라, 해당 단어가 문맥에서 나타내는 의미가 필요하다. 당시 SOTA 모델의 경우, bidirectional recurrent neural network(RNN)을 이용해서 문맥을 고려한 c.. 2020. 10. 16. [논문 리뷰] Learned in Translation: Contextualized Word Vectors (2017 NIPS) Pre-trained 된 language model을 사용하는데는 크게 2가지 방식이 있다. Fine-tuning 을 기반으로 하는 BERT, GPT 와 같은 방식과, Feature-based 방식인 ELMo 와 CoVe 등이 있다. 이번 논문에서는 CoVe 에 대한 내용이다. 논문의 원본은 여기에서 볼 수 있다. # Introduction 컴퓨터 비젼 분야를 보면, CNN을 ImageNet의 데이터로 사전 학습을 하고 사용하는 것이 일반적인 초기화 방법으로 알려져 있다. 이러한 초기화 방법은 관련된 다양한 task를 수행하는데 있어서 성능 향상을 제공했다. NLP의 경우, word2vec, GloVe와 같은 pre-trained representation이 일반적인 초기화 방법이었다. CNN에서 Ima.. 2020. 10. 11. 이전 1 2 3 4 5 6 7 8 ··· 10 다음