분류 전체보기84 [논문 리뷰] Neural Machine Translation of Rare Words with Subword Units (ACL 2016) Neural Machine Translation에서 자주 나타나지 않는 단어나, 처음보는 단어들에 대해서 대처하기 위해 subword model을 제안한다. 논문의 원본은 여기에서 볼 수 있다. 보통 Neural Machine Translation을 수행할 때 우리는 고정된 크기의 vocabulary 를 사용한다. 하지만, 번역하는 작업은 처음 보는 단어를 입력받을 수도 있고, 처음 보는 단어를 생성해야 하는 경우도 있기 때문에, open-vocabulary problem 이라고 볼 수 있다. 우리는 자주 등장하지 않는 단어나, 처음보는 단어에 대해서도 유연하게 번역 작업을 수행하는 것을 목표로 한다. 기존에 이렇게 자주 등장하지 않는 단어나 처음 보는 단어를 만났을 때, dictionary look-u.. 2020. 12. 30. [자연어 처리 입문] 언어 모델 (Language Model) 을 읽고 간단하게 정리한 내용이다. 이번 글에서는 통계적 언어 모델(SLM)을 다뤄본다. 추가적으로 automated evaluation metric 중 하나인 perplexity에 대해서도 알아본다. # 언어 모델 (Language Model) Language model (LM) 은 단어 시퀸스에 확률을 할당하는 문제이다. 단어에 확률을 할당해서 가장 자연스러운 단어 시퀸스를 찾아내는 것을 목표로 한다. 시퀸스를 구성하는 이전 단어들이 주어지면, 그 단어들을 기반으로 다음 단어를 예측하게 된다. LM 을 적용할 수 있는 분야들로는 기계번역(machine translation, MT), 오타 교정, 음성 인식 등이 있다. LM은 크게 통계를 이용하는 방법과 인공 신경망을 이용하는 방법으로 구분할 수 있다.. 2020. 12. 29. [논문 리뷰] Neural Net Models of Open-domain Discourse Coherence (EMNLP 2017) Open-domain 환경에서 discourse coherence(담화 응집성)을 유지하는 dialogue generation에 대한 내용이다. 논뭔의 원본은 여기에서 확인할 수 있다. Discourse coherence(담화 응집성) 는 언어응 이해하고 생성하는데 매우 중요한 역할을 한다. 하지만 기존의 모델들은 세부적인 각각의 요소들에 대한 coherence 를 측정하는 기능만 제공한다. (lexical overlap, entity centering 등) 이번 논문에서는 discourse coherence에 대한 domain-independent neural model 을 제안한다. 크게 discriminative model과 generative model을 제안한다. # Discriminative .. 2020. 12. 28. [자연어 처리 입문] 데이터 전처리 (text preprocessing) 을 읽고 간단하게 정리한 내용이다. 개념 정리할 겸 써본다. # 데이터 전처리 데이터 (텍스트)를 사용하고자 하는 용도에 맞게 토큰과, 정제, 정규화를 수행해야 한다. # Tokenization : corpus를 token 단위로 나누는 작업 크게 단어 토큰화와 문장 토큰화로 구분할 수 있다. 단어 토큰화(word tokenization)는 말 그대로 토큰의 기준을 단어로 정하는 경우이다. 이 경우 특별히 고려해야 하는 점은 단순히 마침표나 특수문자를 그냥 제외해서는 안된다는 것이다. 예를 들어, Ph.D., m.p.h. 등의 줄임말들은 마침표까지 하나의 토큰으로 분류해야 하는 경우가 있다. 추가적으로 단어들은 품사에 따라서 의미가 달라지기도 한다. 단어들의 품사를 찾아내는 과정을 POS(Part of .. 2020. 12. 28. [논문 리뷰] ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue Systems (ClariQ) (2020) ConvAI3의 task에 대한 내용을 다루고 있다. 상대방이 어떠한 말을 했을 때, 그 말에 대한 대답을 하거나, 그 말이 너무 추상적인 경우 더 구체화하기 위한 질문을 하는 task이다. ConvAI2에 관련된 논문을 읽어보고 궁금해서 ConvAI3을 찾아봤는데, 아직 task에 대한 설명정도만 기술한 것 같다. 원본은 여기에서 볼 수 있고, 관련 홈페이지는 여기에서 확인할 수 있다. ClariQ는 clarifying question을 하는 dialogue system의 challenge이다. Conversational AI challenge (ConvAI3) 중 Search-oriented Conversational AI(SCAI) EMNLP workshop 2020 에서 진행이 되었다. 이번 대회.. 2020. 12. 22. [논문 리뷰] the second conversational intelligence challenge (convai2) (NIPS 2018) ConvAI2 NeurIPS competitions의 결과를 설명하고, 결과들을 분석한 내용이다. 최종 결과에서 2등을 한 huggingface팀의 대화 모델에 대한 논문은 여기에서 읽어볼 수 있다. (TransferTransfo) 원본은 여기에서 확인할 수 있다. 이번 논문은 ConvAI2 NeurIPS competition의 setting과 결과에 대해서 이야기한다. 이번 대회를 통해서 현재까지 사전학습된 Transformer 모델의 성능이 가장 좋다는 것을 확인 할 수 있었고, multi-turn conversation을 더 잘 수행하기 위해서는(repetition, consistency, balance of dialogue 등) perplexity와 같은 metric이 아닌, 다른 metirc이 .. 2020. 12. 21. [논문 리뷰] How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation (ENMNLP 2016) Open domain dialogue generation을 할 때 보통은 BLEU, METEOR와 같은 automated evaluation 방식을 사용하게 된다. 이번 논문에서는 open domain dialogue generation에 대해서는 이러한 autmoated metric이 큰 효과가 없고, 사람의 평가 방식과 아주 작은 상관관계, 또는 아예 상관관계가 없다고 주장한다. 논문의 원본은 여기에서 볼 수 있다. Dialogue generation task는 크게 task-oriented dialogue generation과 open-domain dialogue generation으로 구분할 수 있다. Task-oriented dialogue generation(이번 논문에서는 supervised.. 2020. 12. 15. [논문 리뷰] Towards Empathetic Open-domain Conversation Models: a New Benchmark and Dataset (ACL 2019) Dialogue system에서 상대방의 감정을 고려한 대화를 가능하게 하는 방법에 대한 연구이다. 대화에 참여하는 사용자의 감정을 대화와 함께 레이블링한 EmpatheticDialogues(ED) 데이터셋도 구축해서 제공한다. 해당 데이터셋을 사용하면 보다 더 상대의 감정을 고려하는 대화를 수행할 수 있다. 논문의 원본은 여기에서 볼 수 있다. Facebook Research에서 제공하는 실제 코드는 여기 GitHub에서 확인할 수 있다. Dialogue agent가 대화를 하는 상대의 감정을 파악하고, 그 감정에 알맞는 대화를 제공하는 것을 상당히 중요한 요소이다. 이번 논문에서는 empathetic dialogue generation이 가능하도록 학습할 수 있는 EMPATHETICDIALOGUES(.. 2020. 12. 14. [논문 리뷰] (다시 읽어본) Attention Is All You Need (NIPS 2017) NLP에 있어서 정말 큰 변화를 가져온 Transformer에 대한 논문이다. 과거에 논문을 읽어보고 나름대로 정리해본 글(여기)이 있는데, 아직 안읽어봤다면 읽어보지 않는 것을 추천한다. 최근에 어느 Github에서 제공한 Transformer의 전체적인 동작 구조와 코드를 이해하기 쉽게 정리한 것을 보고 내 나름대로 정말 간단하게 정리한 글도 있긴한데, 그닥 도음이 될 것 같지는 않다. (글, Github 은 한 번 둘러보는 것을 추천한다.) 논문의 원본은 여기에서 확인할 수 있다. LSTM과 GRU 와 같은 recurrent neural network는 sequence modeling 분야 (대표적으로 Language modeling, machine translation emd) 에서 대부분의 st.. 2020. 12. 3. 이전 1 2 3 4 5 6 ··· 10 다음