[Huggingface] Huggingface Tokenizer
Huggingface의 tokenizer 동작 방식에 대한 간단한 정리. 컴퓨터는 (당연히) 텍스트를 이해하지 못하고, 각 텍스트에 대응하는 숫자들을 이해한다. 그러므로, 우리는 어떤 텍스트를 어떤식으로 분리해서, 분리된 텍스트를 특정한 숫자(id)에 대응시키고, 해당 id를 모델의 입력으로 넣어주는 과정이 필요하다. 우선, 입력으로 들어온 텍스트를 조금 더 작은 단위로 분리하는 과정이 있는데, 이 과정에서 크게 3가지 방식이 사용된다 : word-based, character-based, subword-based. 1. word-based : 단순하게 단어 단위로 분리하고, 각 단어별로 고유의 id 값을 부여한다. 상당히 단순한 방식이고 구현이 간단하지만 몇 가지 문제점이 있다. 첫 번째로, 각 id에..
2021. 7. 9.
최대우도법 (Maximum Likelihood Estimation, MLE)
최대우도법(Maximum Likelihood Estimation, MLE)은 파라미터 $ \theta $ 로 구성된 어떠한 확률밀도함수 $ P(x|\theta) $ 에서 관측된 표본의 집합을 $ x = (x_1, ..., x_n) $ 이라고 할 때, 이 표본들을 통해서 파라미터 $ \theta $ 를 추정하는 방법이다. 쉽게 말하면, 데이터를 관찰해서 관찰한 데이터가 추출되었을 것이라고 예상되는 분포에 맞게 현재 분포의 파라미터를 업데이트하는 방법이다. [그림-1]과 은 분포에 대한 likelihood를 먼저 이야기해보자. Likelihood는 지금 주어진 데이터(-3, -2, -1, 0, 1, 2, 3) 에 대한 확률분포의 값들을 모두 곱한 것이라고 생각할 수 있다. 각 데이터에 대한 확률분포의 값을 ..
2021. 1. 21.