본문 바로가기

MT5

[논문 리뷰] Neural Machine Translation of Rare Words with Subword Units (ACL 2016) Neural Machine Translation에서 자주 나타나지 않는 단어나, 처음보는 단어들에 대해서 대처하기 위해 subword model을 제안한다. 논문의 원본은 여기에서 볼 수 있다. 보통 Neural Machine Translation을 수행할 때 우리는 고정된 크기의 vocabulary 를 사용한다. 하지만, 번역하는 작업은 처음 보는 단어를 입력받을 수도 있고, 처음 보는 단어를 생성해야 하는 경우도 있기 때문에, open-vocabulary problem 이라고 볼 수 있다. 우리는 자주 등장하지 않는 단어나, 처음보는 단어에 대해서도 유연하게 번역 작업을 수행하는 것을 목표로 한다. 기존에 이렇게 자주 등장하지 않는 단어나 처음 보는 단어를 만났을 때, dictionary look-u.. 2020. 12. 30.
[논문 리뷰] BLEU: a Method for Automatic Evaluation of Machine Translation (2002 ACL) Machine Translation task에서 많이 사용하는 automatic evaluation 방식이다. 해당 논문의 원본은 여기에서 볼 수 있다. 논문의 내용을 다루기 전에 precision, recall, accuracy 에 대한 사전 지식을 가지고 있으면 이해하기 훨씬 편하다. Machine Translation의 결과를 사람이 직접 평가하는 Human evaluation은 정확하지만 비용이 너무 많이 든다는 단점이 있다. 또한, 사람이 직접 평가하기 때문에, 평가하려는 언어에 대한 제한이 발생하게 된다. 마지막으로, 모든 결과를 평가하는데 너무 오랜 시간이 걸린다는 단점이 있는데, 빠르게 기술이 발전하고 변화하는 상황에서 평가에 이렇게 오랜 시간이 걸리는 것은 큰 걸림돌이 될 수 있다. 이러.. 2020. 11. 11.
[논문 리뷰] Neural machine translation by jointly learning to align and translate (2014 NIPS) Attention 기법을 사용해서 Neural Machine Translation의 성능을 향상시킨 내용이다. 논문의 원본은 여기서 확인할 수 있다. 과거의 Machine Translation은 phrase based로서, 다양한 sub-component로 구성되어 있었고, 각 component는 각각 학습되고 구성되었다. 이후에는 하나의 큰 neural network를 이용한 translation 방법들이 제안되었다. Neural Machine Translation은 대부분 encoder-decoder 형식으로 이루어져 있다. Encoder의 경우, 입력 문장을 고정 길이 벡터로 변환시키고, decoder는 해당 벡터를 이용해서 번역 결과를 생성해낸다. 해당 모델을 입력으로 제공된 Input sente.. 2020. 10. 26.
[논문 리뷰] Sequence to Sequence Learning with Neural Networks (2014 NIPS) LSTM을 이용한 sequence to sequence 모델에 대한 논문이다. 논문의 원본은 여기에서 볼 수 있다. 기존 Deep Neural Network(DNN) 은 speech recognition, visual object recognition 등 다양한 분야에서 뛰어난 성능을 제공한다. 하지만, DNN은 크기(차원)이 고정된 입력에 대해서만 데이터를 처리할 수 있다는 단점이 있다. 대부분의 경우 입력의 크기를 미리 알고 있을 수 없기 때문에 DNN의 단점은 더 치명적일 수 있다. 입력의 크기를 알 수 없는 sequential problem 들은 speech recognition, machine translation 등이 있다. DNN의 이러한 단점을 보완하기 위해서 이번 논문에서는 Long Sh.. 2020. 10. 22.
[논문 리뷰] Learned in Translation: Contextualized Word Vectors (2017 NIPS) Pre-trained 된 language model을 사용하는데는 크게 2가지 방식이 있다. Fine-tuning 을 기반으로 하는 BERT, GPT 와 같은 방식과, Feature-based 방식인 ELMo 와 CoVe 등이 있다. 이번 논문에서는 CoVe 에 대한 내용이다. 논문의 원본은 여기에서 볼 수 있다. # Introduction 컴퓨터 비젼 분야를 보면, CNN을 ImageNet의 데이터로 사전 학습을 하고 사용하는 것이 일반적인 초기화 방법으로 알려져 있다. 이러한 초기화 방법은 관련된 다양한 task를 수행하는데 있어서 성능 향상을 제공했다. NLP의 경우, word2vec, GloVe와 같은 pre-trained representation이 일반적인 초기화 방법이었다. CNN에서 Ima.. 2020. 10. 11.