본문 바로가기

분류 전체보기85

[논문 리뷰] A neural probabilistic language model (수정 중) Word2vec 논문을 읽다가 비교 대상으로 나온 Neural Network Language Model (NNLM)을 다룬 논문이다. 논문의 원본은 여기에서 볼 수 있다. # 들어가기 전 논문을 직접 읽어보기 전에 먼저 어떤 내용인지, 공부한 내용을 기반으로 정리해보겠다. 이런거 필요 없이 논문 내용을 보고 싶다면 다음 섹션부터 읽으면 된다. Neural Probabilistic Language Model (NPLM) 은 Distributed Representation을 사용하는 방식 중 하나이다. 기존에는 대부분 one-hot-encoding을 사용했다. One-hot-encoding에 대해서 간단하게 설명하자면, 전체 Vocabulary의 각 단어에 대해서 자신만의 인덱스를 부여한다. 각 단어의 wo.. 2020. 8. 22.
[논문 리뷰] Efficient Estimation of Word Representations in Vector Space Word2vec에 대한 논문이다. 논문의 본문은 여기에서 확인할 수 있다. 1. Introduction 기존의 NLP 에서는 모든 단어를 독립적인 atomic 한 요소로 취급했다. 그렇기 때문에 단어들 사이의 유사성을 파악하는 것이 불가능했다. 반면에, 단순하고 robust하다는 등 다양한 장점들 덕분에 해당 방식을 계속 사용해왔다. 하지만, 이런 단순한 방식에는 많은 한계점이 존재한다. 최근 머신 러닝의 발전으로 우리는 조금 더 복잠한 모델을 큰 데이터셋을 이용해 학습할 수 있었고, 복잡한 모델들은 단순한 모델의 성능을 뛰어넘을 수 있었다. 가장 성공적으로 사용된 방식은 단어를 distributed representation으로 표현하는 방식이라고 할 수 있다. 이번 논문은 큰 데이터셋을 이용해서 hi.. 2020. 8. 18.
[CS224N] Lecture 5 - Dependency Parsing Sentence Structure 문장의 구조를 파악하는 방법은 총 2가지가 있다. Phrase-structure grammar(context-free grammar, CFG) dependency structure grammar 문장 구조를 제대로 파악해야지 문장의 의미를 정확하게 이해할 수 있다. Phrase-structure grammar 문장을 unit으로 구성 각 unit 들을 progressively nest Dependency structure grammar 한 단어가 어떤 다른 단어에 의존적인지 나타내는 방식 Treebank 사람이 직접 문장들의 dependency를 파악해서 dependency structure 를 구성한 데이터셋 영어 뿐만 아니라, 다양한 언어들에 대해서 생성 Depend.. 2020. 8. 14.
[논문 리뷰] "Why Should I Trust You?": Explaining the Predictions of Any Classifier (수정 중) 설명 가능한 인공지능(eXplainable AI, XAI)에 대해서 조사하다가 발견한 유명한 논문이다. Abstract Machine learning 모델들은 대부분 black-box 이다. trust(신뢰)를 위해 모델 예측의 이유를 이해하는 것이 매우 중요하다. 예측의 이유를 이해하는 것은 전체적인 모델의 신뢰도를 판단하는데 사용될 수 있다. 해당 논문에서는 LIME을 소개한다. 모든 classifier의 예측에 대한 설명을 제공한다. LIME의 유연성을 보여주기 위해 text classification과 image classification을 예시로 제공한다. 1. Introduction machine learning classifier가 어떤 분야에 적용되던 간에, 사용자가 모델을 신뢰하지 못하면.. 2020. 8. 14.
[CS224N] Lecture 3 - Neural Networks Classification setup & notation $ x_i $ : inputs (d-dimension vector) $ y_i $ : C개의 class 중, $ x_i $ 에 해당하는 class(label) $$ \left\{x_i, y_i \right\}^N_{i=1} $$ Classifier classification : x 값들이 주어졌을 때, y 값에 따라서 영역을 구분할 수 있는 선을 구해야 한다. classifier : 영역을 구분하는 선 softmax, logistic regression 등의 linear classifier(선으로 두 영역을 구분)를 사용한다. softmax : 입력값을 probability distribution으로 제공한다. 각 x 에 대해서 아래 정의한 $ p.. 2020. 8. 12.
[CS224N] Lecture 2 - Word Vectors and Word Senses Vector Space word vector를 vector space에 위치시켰을 때, 유사한 의미를 보유하고 있으면 가까이 위치한다는 것을 알 수 있다. high dimensional vector space에서는 한 단어가 다양한 다른 단어와 서로 다른 방향으로 인정합 수 있다. 2차원 공간에 이러한 벡터들을 나타내는 경우, 이런 관계를 표현하지 못할 수 있다. 벡터의 방향성에도 의미가 있다는 것을 알 수 있다. Optimization Gradient Descent 손실 함수인 $ J(\theta) $ 를 최소화해야 한다. 손실 함수의 gradient(기울기)를 계산해서, gradient의 반대 방향으로 조금씩 이동하게 된다. 계속해서 기울기 반대 방향으로 이동하다 보면, 최종적으로 최소점으로 이동하게.. 2020. 8. 11.
[CS224N] Lecture 1 - Introduction and Word Vectors Stanford 에서 진행하는 CS224N : NLP with Deep Learning 을 듣고 정리한 내용입니다. 과거에는 Human language 를 통해 지식을 전달했다. 상대적을 slow network를 형성한다. (bandwidth 가 작다.) 그러므로 내용을 축약해서 전달한다. : 대화하는 사람이 어느정도의 배경 지식을 보유하고 있다고 가정하고 대화를 한다. 그러므로 짧은 단어만 이용해서 더 많이 이해할 수 있다. 우리가 이번 과정을 통해서 하고 싶은 것 : represent the meaning of words common solution : WordNet 단어의 synonym 과 hypernyms 를 사용해서 dictionary 를 구성한다. human labor를 통해서 구성된 hand.. 2020. 8. 10.
[논문 리뷰] KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding 카카오 브레인 팀에서 자연어 처리를 위한 데이터셋을 공개한다는 내용의 논문이다. 이제 자연어 처리 공부를 시작한 나에게는 모든게 생소하고 어렵게 느껴지지만, 대단하다는건 확실하다 :) Abstract NLU(Natural Language Understanding)에서 NLI(Naural Language Inference)와 STS(Semantic Textual Similarity)는 가장 큰 과제 중 하나이다. 영어를 포함한 몇 가지 언어에 대해서는 기준이 되는 데이터셋이 존재하지만, 한국어 NLI, STS에 대한 데이터셋은 존재하지 않는다. 그렇기에, KorNLI, KorSTS 라는 한국어 NLI, STS를 위한 데이터셋을 공개한다. 영어 데이터 셋을 기계 번역해서 한국어로 구성된 학습 데이터를 생성했.. 2020. 8. 2.
[통계학 기초] 확률분포(probability distribution) 확률분포(probability distribution) 확률분포에 대해서 이야기하기 전에, 확률변수에 대해서 먼저 이야기해보겠습니다. 확률변수(random variable, r.v)는 표본공간(S)의 각 단위 사건에 실수값을 부여하는 함수를 의미합니다. 확률변수는 크게 이산확률변수와 연속확률변수로 구분합니다. 첫 번째로, 이산확률변수는 확률변수 X가 취할 수 있는 값이 유한(finite) 한 경우 자연수와 일대일 대응이 되는 무한개인 경우 두 가지 경우를 의미합니다. 확률변수 x와 확률분포 f(x)는 다음과 같이 정의합니다. $$ x = x_{1}, x_{2}, ..., x_{n} $$ $$ f(x_{i}) = P(X = x_{i}) (i = 1, 2, ..., n) $$ 두 번째로, 연속확률변수(con.. 2020. 7. 17.