본문 바로가기

word2vec4

[CS224N] Assignment 2 한 단어($ c $)는 그 단어의 주위 단어에 의해서 뜻을 유추할 수 있다. [그림-1]을 보면 center word 는 "banking" 이고, 해당 단어를 둘러싸고있는 context word 는 각각 "turning", "into", "crises", "as" 등으로 구성된다. Word2vec에서는 주변 단어 $ o $ 와 중간 단어 $ c $ 사이의 관계 $ P(O = o | C = c) $ 를 계산하려고 한다. 이 방법의 경우는 skip-gram 방식으로, 중간 단어가 주어졌을 때, 주번 단어를 예측하는 방식이다. 다른 방식으로는 Continuous bag-of-words (CBOW)가 있는데, 이 방식의 경우에는 주변 단어에 따라서 중간 단어를 예측하는 방식으로 학습이 진행된다. 해당 Condi.. 2020. 10. 26.
[논문 리뷰] Efficient Estimation of Word Representations in Vector Space Word2vec에 대한 논문이다. 논문의 본문은 여기에서 확인할 수 있다. 1. Introduction 기존의 NLP 에서는 모든 단어를 독립적인 atomic 한 요소로 취급했다. 그렇기 때문에 단어들 사이의 유사성을 파악하는 것이 불가능했다. 반면에, 단순하고 robust하다는 등 다양한 장점들 덕분에 해당 방식을 계속 사용해왔다. 하지만, 이런 단순한 방식에는 많은 한계점이 존재한다. 최근 머신 러닝의 발전으로 우리는 조금 더 복잠한 모델을 큰 데이터셋을 이용해 학습할 수 있었고, 복잡한 모델들은 단순한 모델의 성능을 뛰어넘을 수 있었다. 가장 성공적으로 사용된 방식은 단어를 distributed representation으로 표현하는 방식이라고 할 수 있다. 이번 논문은 큰 데이터셋을 이용해서 hi.. 2020. 8. 18.
[CS224N] Lecture 2 - Word Vectors and Word Senses Vector Space word vector를 vector space에 위치시켰을 때, 유사한 의미를 보유하고 있으면 가까이 위치한다는 것을 알 수 있다. high dimensional vector space에서는 한 단어가 다양한 다른 단어와 서로 다른 방향으로 인정합 수 있다. 2차원 공간에 이러한 벡터들을 나타내는 경우, 이런 관계를 표현하지 못할 수 있다. 벡터의 방향성에도 의미가 있다는 것을 알 수 있다. Optimization Gradient Descent 손실 함수인 $ J(\theta) $ 를 최소화해야 한다. 손실 함수의 gradient(기울기)를 계산해서, gradient의 반대 방향으로 조금씩 이동하게 된다. 계속해서 기울기 반대 방향으로 이동하다 보면, 최종적으로 최소점으로 이동하게.. 2020. 8. 11.
[CS224N] Lecture 1 - Introduction and Word Vectors Stanford 에서 진행하는 CS224N : NLP with Deep Learning 을 듣고 정리한 내용입니다. 과거에는 Human language 를 통해 지식을 전달했다. 상대적을 slow network를 형성한다. (bandwidth 가 작다.) 그러므로 내용을 축약해서 전달한다. : 대화하는 사람이 어느정도의 배경 지식을 보유하고 있다고 가정하고 대화를 한다. 그러므로 짧은 단어만 이용해서 더 많이 이해할 수 있다. 우리가 이번 과정을 통해서 하고 싶은 것 : represent the meaning of words common solution : WordNet 단어의 synonym 과 hypernyms 를 사용해서 dictionary 를 구성한다. human labor를 통해서 구성된 hand.. 2020. 8. 10.