NLP40 [자연어 처리 입문] 데이터 전처리 (text preprocessing) 을 읽고 간단하게 정리한 내용이다. 개념 정리할 겸 써본다. # 데이터 전처리 데이터 (텍스트)를 사용하고자 하는 용도에 맞게 토큰과, 정제, 정규화를 수행해야 한다. # Tokenization : corpus를 token 단위로 나누는 작업 크게 단어 토큰화와 문장 토큰화로 구분할 수 있다. 단어 토큰화(word tokenization)는 말 그대로 토큰의 기준을 단어로 정하는 경우이다. 이 경우 특별히 고려해야 하는 점은 단순히 마침표나 특수문자를 그냥 제외해서는 안된다는 것이다. 예를 들어, Ph.D., m.p.h. 등의 줄임말들은 마침표까지 하나의 토큰으로 분류해야 하는 경우가 있다. 추가적으로 단어들은 품사에 따라서 의미가 달라지기도 한다. 단어들의 품사를 찾아내는 과정을 POS(Part of .. 2020. 12. 28. [논문 리뷰] ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue Systems (ClariQ) (2020) ConvAI3의 task에 대한 내용을 다루고 있다. 상대방이 어떠한 말을 했을 때, 그 말에 대한 대답을 하거나, 그 말이 너무 추상적인 경우 더 구체화하기 위한 질문을 하는 task이다. ConvAI2에 관련된 논문을 읽어보고 궁금해서 ConvAI3을 찾아봤는데, 아직 task에 대한 설명정도만 기술한 것 같다. 원본은 여기에서 볼 수 있고, 관련 홈페이지는 여기에서 확인할 수 있다. ClariQ는 clarifying question을 하는 dialogue system의 challenge이다. Conversational AI challenge (ConvAI3) 중 Search-oriented Conversational AI(SCAI) EMNLP workshop 2020 에서 진행이 되었다. 이번 대회.. 2020. 12. 22. [논문 리뷰] the second conversational intelligence challenge (convai2) (NIPS 2018) ConvAI2 NeurIPS competitions의 결과를 설명하고, 결과들을 분석한 내용이다. 최종 결과에서 2등을 한 huggingface팀의 대화 모델에 대한 논문은 여기에서 읽어볼 수 있다. (TransferTransfo) 원본은 여기에서 확인할 수 있다. 이번 논문은 ConvAI2 NeurIPS competition의 setting과 결과에 대해서 이야기한다. 이번 대회를 통해서 현재까지 사전학습된 Transformer 모델의 성능이 가장 좋다는 것을 확인 할 수 있었고, multi-turn conversation을 더 잘 수행하기 위해서는(repetition, consistency, balance of dialogue 등) perplexity와 같은 metric이 아닌, 다른 metirc이 .. 2020. 12. 21. [논문 리뷰] How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation (ENMNLP 2016) Open domain dialogue generation을 할 때 보통은 BLEU, METEOR와 같은 automated evaluation 방식을 사용하게 된다. 이번 논문에서는 open domain dialogue generation에 대해서는 이러한 autmoated metric이 큰 효과가 없고, 사람의 평가 방식과 아주 작은 상관관계, 또는 아예 상관관계가 없다고 주장한다. 논문의 원본은 여기에서 볼 수 있다. Dialogue generation task는 크게 task-oriented dialogue generation과 open-domain dialogue generation으로 구분할 수 있다. Task-oriented dialogue generation(이번 논문에서는 supervised.. 2020. 12. 15. [논문 리뷰] Towards Empathetic Open-domain Conversation Models: a New Benchmark and Dataset (ACL 2019) Dialogue system에서 상대방의 감정을 고려한 대화를 가능하게 하는 방법에 대한 연구이다. 대화에 참여하는 사용자의 감정을 대화와 함께 레이블링한 EmpatheticDialogues(ED) 데이터셋도 구축해서 제공한다. 해당 데이터셋을 사용하면 보다 더 상대의 감정을 고려하는 대화를 수행할 수 있다. 논문의 원본은 여기에서 볼 수 있다. Facebook Research에서 제공하는 실제 코드는 여기 GitHub에서 확인할 수 있다. Dialogue agent가 대화를 하는 상대의 감정을 파악하고, 그 감정에 알맞는 대화를 제공하는 것을 상당히 중요한 요소이다. 이번 논문에서는 empathetic dialogue generation이 가능하도록 학습할 수 있는 EMPATHETICDIALOGUES(.. 2020. 12. 14. [논문 리뷰] (다시 읽어본) Attention Is All You Need (NIPS 2017) NLP에 있어서 정말 큰 변화를 가져온 Transformer에 대한 논문이다. 과거에 논문을 읽어보고 나름대로 정리해본 글(여기)이 있는데, 아직 안읽어봤다면 읽어보지 않는 것을 추천한다. 최근에 어느 Github에서 제공한 Transformer의 전체적인 동작 구조와 코드를 이해하기 쉽게 정리한 것을 보고 내 나름대로 정말 간단하게 정리한 글도 있긴한데, 그닥 도음이 될 것 같지는 않다. (글, Github 은 한 번 둘러보는 것을 추천한다.) 논문의 원본은 여기에서 확인할 수 있다. LSTM과 GRU 와 같은 recurrent neural network는 sequence modeling 분야 (대표적으로 Language modeling, machine translation emd) 에서 대부분의 st.. 2020. 12. 3. [논문 리뷰] Listening between the Lines: Learning Personal Attributes from Conversations (WWW 2019) 사람들의 일상 대화 속에서 사람의 특징(나이, 성별 등) 을 학습하는 방법에 대한 논문이다. 논문에서 사용한 모델의 코드는 여기, 데이터셋은 여기에서 확인할 수 있다. 논문의 원본은 여기에서 볼 수 있다. Dialogue generation task에 있어서 다양한 challange 들이 존재하지만, personalized conversation 을 생성하는 방법 또한 큰 도전으로 남아있다. 실제 사람과 의미있는 대화를 주고받기 위해서는 현재 대화를 하고 있는 사람의 특징과 배경을 그 사람이 하는 말을 통해서 유추해낼 수 있어야 한다. [예시-1]을 보면 'brekky' 라는 단어를 통해서 현재 대화하고 있는 사람(H)이 호주에 있다는 것을 유추할 수 있다. 하지만, 다음 대화에서 사람(H)이 아이들과 .. 2020. 11. 25. [논문 리뷰] You Impress Me: Dialogue Generation via Mutual Persona Perception (수정 중) (ACL 2020) 논문 원본은 여기에서 확인할 수 있다. # 참고 논문 Deep reinforcement learning for dialogue generation. Personalizing dialogue agents: I have a dog, do you have pets too? A persona-based neural conversation model. : speaker 에 대한 embedding 을 사용하는 방법 (리뷰) Training millions of personalized dialogue agents.: PERSONA-CHAT dataset + Reddit dataset TransferTransfo: A transfer learning approach for neural network based conv.. 2020. 11. 23. [논문 리뷰] A Persona-Based Neural Conversation Model (ACL 2016) Persona를 유지하면서 대화를 이어나갈 수 있는, persona-based neural conversational model에 대해서 다룬다. 논문의 원본은 여기에서 볼 수 있다. 기존의 seq2seq 모델과 유사하지만, decoder에서 한 사람의 persona를 나타내는 speaker embedding 과 addressee embedding 을 함께 입력으로 사용한다. 그러므로 이전 hidden state, 이전 timestep의 예상 결과, 그리고 speaker embedding 이 한 timestep의 입력으로 제공된다. Speaker embedding을 사용함으로서 비슷한 persona 를 보유하는 사람은 가까이에 위치하게 되는데, 이러한 방식은 학습 과정에서 배우지 않은 질문들에 대해서도 .. 2020. 11. 19. 이전 1 2 3 4 5 다음